Մասնակից:Anoush99/Ավազարկղ4

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Լեզվաբանության մեջ բառույթի ներկայացումը (անգլ.՝ lemmatisation) ենթադրում է բառի թեքական ձևերի խմբավորում, որպեսզի հնարավոր դառնա դրանց՝ որպես մեկ միավոր վերլուծելը՝ նույնականացված բառույթով կամ բառարանային ձևով[1]: Հաշվողական լեզվաբանության մեջ բառույթի ներկայացումը բառույթի որոշարկման ալգորիթմային գործընթաց է՝ ելնելով դրա նպատակային նշանակությունից: Ի տարբերություն արմատական ձև ներկայացմանը՝ բառույթը կախված է նախադասության մեջ բառի խոսքիմասային պատկանելությունից և նեղ ու լայն համատեքստային իմաստից, օրինակ, դիտարկելով հարևան նախադասությունների կամ նույնիսկ մի ամբողջ փաստաթղթի դերը՝ որպես համատեքստ: Արդյունքում, բառույթի ներկայացման արդյունավետ ալգորիթմների մշակումը հետազոտական մեծ հնարավրություններ է տալիս [2][3][4]:

Նկարագրություն[խմբագրել | խմբագրել կոդը]

Շատ լեզուներում բառերը հայտնվում են մի քանի թեքական ձևերով: Օրինակ՝ անգլերենում «to walk» բայի դիտարկելի ձևերն են՝ «walk», «walked», «walks» կամ «walking»: Բառարանում ամրագրված հիմք ձևն է՝ «walk» բառույթը: Հիմք ձևի զուգորդումը խոսքի մասի հետ հաճախ անվանում են լեքսեմա:

Բառույթի ներկայացումը սերտորեն կապված է արմատական ձևի հետ: Տարբերությունն այն է, որ արմատական ձևի վերհանումը հնարավոր է մեկ բառի առկայությամբ՝ առանց համատեքստի դիտարկման, և, հետևաբար, չի կարող զանազանել խոսքի մասով պայմանավորված բառային իմաստները: Այնուամենայնիվ, արմատական ձևի ներկայացումը սովորաբար ավելի հեշտ է տրվում և ավելի արագ է գործում: Նվազ «ճշգրտությունը» որոշ կիրառումների համար կարող է դեր չխաղալ: Իրականում, տեղեկության որոնման համակարգերում կիրառվելիս, արմատական ձևը առավել նպաստում է հարցման ճշգրտությանը՝ ի տարբերություն բառույթի: Այնուամենայնիվ, արմատական ձևը նվազեցնում է ճշգրտությունը կամ դրական պիտակավորված դեպքերի համամասնությունը, որոնք իրականում դրական են այդպիսի համակարգերում[5]:

Օրինակ՝

  1. «better» բառի բառույթը« good»-ն է: Այս հղումը բացակայում է արմատական ձևի ներկայացման դեպքում, քանի որ այն պահանջում է բառարանային որոնում:
  2. «walk» բառը « walking » բառի արմատական ձևն է, հետեւաբար, սա համընկնում է և որպես արմատական ձև, և որպես բառույթ:
  3. կախված համատեքստից՝ «meeting» բառը կարող է հիմք ձև լինել գոյականի կամ բայի («to meet») համար. օրինակ՝ «in our last meeting» կամ «We are meeting again tomorrow»: Ի տարբերություն արմատական ձևի՝ բառույթի ներկայացումը փորձում է ընտրել համատեքստին համապատասխան ճիշտ բառույթ:

Փաստաթղթերի ինդեքսավորման համակարգը, ինչպիսին է՝ «Lucene»[6], կարող է պահպանել բառի հիմնական արմատական ձևը` առանց իմաստի իմացության՝ հաշվի առնելով միայն բառակազմության քերականական կանոնները: Արմատական բառն ինքնին կարող է կիրառում չունենա, օրինակ, «lazy» ածականի դեպքում արմատական ձևն է՝ «lazi» : Սա պայմանավորված է նրանով, որ արմատական ձևը չի ենթադրում համապատասխան բառույթի ստեղծում: Սա ավելի մեծ խնդիր է, ինչը պահանջում է համատեքստային գիտելիք: Արմատական ձևի ներկայացման հիմնական նպատակն է բառի տարբեր ձևերը մեկ ձևով համադրելը[7]: Որպես կանոնների վրա հիմնված ալգորիթմ՝ կախված լինելով միայն բառի ուղղագրությունից, նշված նպատակին ծառայելու համար այն զոհաբերում է ճշգրտությունը, օրինակ, երբ «laziness» գոյականի արմատական ձևն է « lazi», այն ունի նույն արմատաը, ինչ « lazy» ածականը:

Ալգորիթմներ[խմբագրել | խմբագրել կոդը]

Բառույթի ներկայացման հեշտ տարբերակը բառարանային պարզ որոնումն է: Սա լավ է գործում ակնհայտ թեքական ձևերի դեպքում, բայց կանոնների վրա հիմնված համակարգի պարագայում անհրաժեշտ կլինի այլ դեպքերի դիտարկում, օրինակ՝ երկար, բարդ բառերով լեզուներում: Նման կանոնները կարող են կա՛մ ձեռքով մշակվել, կա՛մ ավտոմատ կերպով դուրս բերվել պիտակավորված կորպուսից:

Կիրառումը կենսաբժշկության մեջ[խմբագրել | խմբագրել կոդը]

Հրապարակված կենսաբժշկական գրականության ձևաբանական վերլուծությունը կարող է օգտակար արդյունքներ տալ: Կենսաբժշկական տեքստի ձևաբանական մշակումը կարող է ավելի արդյունավետ լինել կենսաբժշկության մեջ կիրառելի բառույթի ներկայացման հատուկ ծրագրի միջոցով և կարող է բարելավել տեղեկության վերհանման նպատակով գործնական առաջադրանքների ճշգրտությունը[8]:


Ծանոթագրություններ[խմբագրել | խմբագրել կոդը]

  1. Collins English Dictionary, entry for "lemmatise"
  2. «WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages» (PDF).
  3. Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich (2015). Joint Lemmatization and Morphological Tagging with LEMMING (PDF). 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics. էջեր 2268–2274. doi:10.18653/v1/D15-1272.
  4. Bergmanis, Toms; Goldwater, Sharon. «Context Sensitive Neural Lemmatization with Lematus» (PDF).
  5. Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich. «Introduction to Information Retrieval». Cambridge University Press.
  6. «Lucene Snowball». Apache project.
  7. Martin Porter. «Porter Stemmer».
  8. Liu, H.; Christiansen, T.; Baumgartner, W. A.; Verspoor, K. (2012). «BioLemmatizer: A lemmatization tool for morphological processing of biomedical text». Journal of Biomedical Semantics. 3: 3. doi:10.1186/2041-1480-3-3. PMC 3359276. PMID 22464129.{{cite journal}}: CS1 սպաս․ չպիտակված ազատ DOI (link)