Լեսկի ալգորիթմ

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Լեսկի ալգորիթմը բառի իմաստի երկիմաստության վերացման դասական ալգորիթմն է, որը առաջ է քաշվել Մայքլ Է.Լեսկի կողմից 1986 թ.-ին[1]։

Ընդհանուր պատկերացում[խմբագրել | խմբագրել կոդը]

Լեսկի ալգորիթմը հիմնված է այն ենթադրության վրա, որ տվյալ բառի հետ առնչվող բառերը հակված են արտահայտելու միևնույն միտքը։ Լեսկի ալգորիթմի պարզեցված տարբերակը երկիմաստ բառերի բառարանային բացատրության համեմատումն է տվյալ բառի հետ առնչվող տերմինների հետ։ Տարբերակները հարմարեցվել են WordNet-ին[2]։. Դա կլինի հետևյալ կերպ.

  1. երկիմաստությունից ձերբազատվող յուրաքանչյուր բառի համար պետք է հաշվի առնել, թե տվյալ բառի կողքերը գտնվող բառերի քանակը, թե բառարանում յուրաքանչյուր իմաստի բացատրությունը։
  2. ընտրվող իմաստը այն իմաստն է, որը այդ բառի համար ամենաշատն է կիրառվում։

Այս ալգորիթմի աշխատանքի բավականին հայտնի օրինակ է "PINE CONE" կոնտեքստը (համադրությունը).

PINE 
1. կանաչ ծառերի տեսակներ՝ ասեղանման տերևներով
2. հյուծվել, նիհարել ցավից կամ հիվանդությունից
CONE 
1. ամրակազմ, թիկնեղ մարմին՝ լայնից ներքև նեղացող
2. կոնին նման որևէ ամուր մարմին 
3. կոնկրետ կանաչ ծառատեսակի պտուղ

Ինչպես տեսանք այս կոնտեքստի համար ամենաճիշտ նշանակությունը կլինի Pine#1 ⋂ Cone#3 = 2.

Լեսկի պարզեցված ալգորիթմ[խմբագրել | խմբագրել կոդը]

Պարզեցված Լեսկի ալգորիթմում, տրված կոնտեքստի յուրաքանչյուր բառի ճշգրիտ իմաստը սահմանվում է անհատական կերպով՝ ընտրելով այն իմաստը, որը առավել մոտ է թե նրա բառարանային բացատրությանը, թե տրված կոնտեքստին։ Տրված կոնտեքստում բոլոր բառերի իմաստները միաժամանակ սահմանելու փոխարեն այս մոտեցումը յուրաքանչյուր բառին անհատական կերպով է անդրադառնում՝ անկախ միևնույն կոնտեքստում հանդիպող մյուս բառերի իմաստներից։

"Վասիլեսի կողմից իրականացված համեմատական գնահատումը et al. (2004)[3] has ցույց է տվել, որ Լեսկի պարզեցված ալգորիթմը կարող է էականորեն փոխել ալգորիթմի իրական նշանակությունը, թե ճշգրտության, թե արդյուանվետության առումով։ Տվյալ բառը համեմատում ենք Senseval-2 անգլերեն բառերի բազայի հետ 58% ճշգրտությամբ, և նմանատիպ` Լեսկի ալգորիթմի 42% ճշգրտությամբ։

Նշում։ Վասիլեսի կիրառումը նախատեսում է օժանդակ ռազմավարություն այն բառերի համար, որոնք ալգորիթմը չի ընդգրկում, և որոնք ունեն WordNet-ում բացատրված ամենահաճախ օգտագործվող իմաստը։ Սա նշանակում է, որ բառերը, որոնց համար նրանց բոլոր հնարավոր իմաստները կոնկրետ կոնտեքստում ձգտում են զրոյի(այսինքն չի գտնվում բառի կոնկրետ նշանակությունը), կամ այլ բառերի իմաստի, լռելյայն փնտրում է կատարվում WordNet-ում։"[4]

Լեսկի պարզեցված ալգորիթմ (Kilgarriff and Rosenzweig, 2000)[5]

ֆունկցիա SIMPLIFIED LESK(բառ, նախադասություն) վերադարձնում է բառի ամենամոտ իմաստը
best sense <-բառի ամենահաճախ օգտագործվող իմաստը
max-overlap<- 0
context <- նախադասության մեջ բառերի խումբ
իմաստների խմբի մեջ do բառը ամեն իմաստի համար
signiture <- բառերի խումբ գլոսում և իմաստների օրինակներ
overlap <-COMPUTEOVERLAP(ստորագրություն, կոնտեքստ)
if overlap > max-overlap then
max-overlap <- overlap
best-sense <- sense

end return (best-sense)

COMPUTEOVERLAP ֆունկցիան վերադարձնում է երկու խմբերի միջև բառերի քանակը, արհամարհելով stop list-ում ֆունկցիայի և այլ բառերը։ Օրիգինալ Լեսկ ալգորիթմը որոշում է կոնտեքստը ավելի բարդ ճանապարհով։

Քննադատություններ և Լեսկի վրա հիմնված այլ մեթոդներ[խմբագրել | խմբագրել կոդը]

Դժբախտաբար Լեսկի մոտեցումը շատ մեծ ուշադրություն է դարձնում իրական նշանակություններին այնպես, որ որոշակի բառերի բացակայությունը կարող է ամբողջությամբ փոխել արդյունքները։ Հետագայում ալգորիթմը սահմանում է միայն ենթադրվող իմաստներից ամենաակնառուները։ Սա էական սահմանափակում է այդ բառարանային մեկնություններում, որոնք հակված են լինել բավական կարճ և չեն տրամադրում անհրաժեշտ բառապաշար՝ իմաստը արտահայտելու համար։

Վերջերս շատ աշխատանքներ են տարվել, որոնք տարբեր ձևափոխումներ են առաջարկում այս ալգորիթմի համար։ Այս աշխատանքները այլ աղբյուրներ են օգտագործում վերլուծությունների համար (բացատրական բառարաններ, հոմանիշների բառարաններ, մորֆոլագիական կամ ձևաբանական բառարաններ), օրինակ՝ այն կարող է կիրառել այնպիսի տեղեկություններ, ինչպիսիք են հոմանիշները, տարբեր ածանցյալ բառերը, կամ բառերի բացատրությունների մեջ օգտագործվող բառերը[6]։.

Կան շատ ուսումնասիրություններ Լեսկի ալգորիթմի և նրա ուղղությունների վերաբերյալ[7]։

  • Kwong, 2001;
  • Nastase and Szpakowicz, 2001;
  • Wilks and Stevenson, 1998, 1999;
  • Mahesh et al., 1997;
  • Cowie et al., 1992;
  • Yarowsky, 1992;
  • Pook and Catlett, 1988;
  • Kilgarriff & Rosensweig, 2000,
  • Alexander Gelbukh, Grigori Sidorov, 2004.

Ծանոթագրություններ[խմբագրել | խմբագրել կոդը]

  1. Lesk, M. (1986). ACM&coll=GUIDE&CFID=103485667&CFTOKEN=64768709 Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone. In SIGDOC '86: Proceedings of the 5th annual international conference on Systems documentation, pages 24-26, New York, NY, USA. ACM.
  2. Satanjeev Banerjee and Ted Pedersen. An Adapted Lesk Algorithm for Word Sense Disambiguation Using WordNet, Lecture Notes In Computer Science; Vol. 2276, Pages: 136 - 145, 2002. ISBN 3540432191
  3. Florentina Vasilescu, Philippe Langlais, and Guy Lapalme. 2004. Evaluating Variants of the Lesk Approach for Disambiguating Words. LREC, Portugal.
  4. Agirre, Eneko & Philip Edmonds (eds.). 2006. Word Sense Disambiguation: Algorithms and Applications. Dordrecht: Springer. www.wsdbook.org
  5. Kilgarriff and J. Rosenzweig. 2000. English SENSEVAL:Report and Results. In Proceedings of the 2nd International Conference on Language Resourcesand Evaluation, LREC, Athens, Greece.
  6. Alexander Gelbukh, Grigori Sidorov. Automatic resolution of ambiguity of word senses in dictionary definitions (in Russian). J. Nauchno-Tehnicheskaya Informaciya (NTI), ISSN 0548-0027, ser. 2, N 3, 2004, pp. 10–15.
  7. Roberto Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1–69.

Կաղապար:Ling-stub