Բառույթի ներկայացում

Վիքիպեդիայից՝ ազատ հանրագիտարանից
Jump to navigation Jump to search

Լեզվաբանության մեջ բառույթի ներկայացումը (անգլ.՝ lemmatisation) ենթադրում է բառի թեքական ձևերի խմբավորում, որպեսզի հնարավոր դառնա դրանց՝ որպես մեկ միավոր վերլուծելը՝ նույնականացված բառույթով կամ բառարանային ձևով[1]։ Հաշվողական լեզվաբանության մեջ բառույթի ներկայացումը բառույթի որոշարկման ալգորիթմային գործընթաց է՝ ելնելով դրա նպատակային նշանակությունից։ Ի տարբերություն արմատական ձև ներկայացմանը՝ բառույթը կախված է նախադասության մեջ բառի խոսքիմասային պատկանելությունից և նեղ ու լայն համատեքստային իմաստից, օրինակ, դիտարկելով հարևան նախադասությունների կամ նույնիսկ մի ամբողջ փաստաթղթի դերը՝ որպես համատեքստ։ Արդյունքում, բառույթի ներկայացման արդյունավետ ալգորիթմների մշակումը հետազոտական մեծ հնարավորություններ է տալիս[2][3][4]։

Նկարագրություն[խմբագրել | խմբագրել կոդը]

Շատ լեզուներում բառերը հայտնվում են մի քանի թեքական ձևերով։ Օրինակ՝ անգլերենում «to walk» բայի դիտարկելի ձևերն են՝ «walk», «walked», «walks» կամ «walking»: Բառարանում ամրագրված հիմք ձևն է՝ «walk» բառույթը։ Հիմք ձևի զուգորդումը խոսքի մասի հետ հաճախ անվանում են լեքսեմա։

Բառույթի ներկայացումը սերտորեն կապված է արմատական ձևի հետ։ Տարբերությունն այն է, որ արմատական ձևի վերհանումը հնարավոր է մեկ բառի առկայությամբ՝ առանց համատեքստի դիտարկման, և, հետևաբար, չի կարող զանազանել խոսքի մասով պայմանավորված բառային իմաստները։ Այնուամենայնիվ, արմատական ձևի ներկայացումը սովորաբար ավելի հեշտ է տրվում և ավելի արագ է գործում։ Նվազ «ճշգրտությունը» որոշ կիրառումների համար կարող է դեր չխաղալ։ Իրականում, տեղեկության որոնման համակարգերում կիրառվելիս, արմատական ձևը առավել նպաստում է հարցման ճշգրտությանը՝ ի տարբերություն բառույթի։ Այնուամենայնիվ, արմատական ձևը նվազեցնում է ճշգրտությունը կամ դրական պիտակավորված դեպքերի համամասնությունը, որոնք իրականում դրական են այդպիսի համակարգերում[5]։

Օրինակ՝

  1. «better» բառի բառույթը«good»-ն է։ Այս հղումը բացակայում է արմատական ձևի ներկայացման դեպքում, քանի որ այն պահանջում է բառարանային որոնում։
  2. «walk» բառը «walking» բառի արմատական ձևն է, հետեւաբար, սա համընկնում է և որպես արմատական ձև, և որպես բառույթ։
  3. կախված համատեքստից՝ «meeting» բառը կարող է հիմք ձև լինել գոյականի կամ բայի («to meet») համար. օրինակ՝ «in our last meeting» կամ «We are meeting again tomorrow»: Ի տարբերություն արմատական ձևի՝ բառույթի ներկայացումը փորձում է ընտրել համատեքստին համապատասխան ճիշտ բառույթ։

Փաստաթղթերի ինդեքսավորման համակարգը, ինչպիսին է՝ «Lucene»[6], կարող է պահպանել բառի հիմնական արմատական ձևը` առանց իմաստի իմացության՝ հաշվի առնելով միայն բառակազմության քերականական կանոնները։ Արմատական բառն ինքնին կարող է կիրառում չունենա, օրինակ, «lazy» ածականի դեպքում արմատական ձևն է՝ «lazi»: Սա պայմանավորված է նրանով, որ արմատական ձևը չի ենթադրում համապատասխան բառույթի ստեղծում։ Սա ավելի մեծ խնդիր է, ինչը պահանջում է համատեքստային գիտելիք։ Արմատական ձևի ներկայացման հիմնական նպատակն է բառի տարբեր ձևերը մեկ ձևով համադրելը[7]։ Որպես կանոնների վրա հիմնված ալգորիթմ՝ կախված լինելով միայն բառի ուղղագրությունից, նշված նպատակին ծառայելու համար այն զոհաբերում է ճշգրտությունը, օրինակ, երբ «laziness» գոյականի արմատական ձևն է «lazi», այն ունի նույն արմատաը, ինչ «lazy» ածականը։

Ալգորիթմներ[խմբագրել | խմբագրել կոդը]

Բառույթի ներկայացման հեշտ տարբերակը բառարանային պարզ որոնումն է։ Սա լավ է գործում ակնհայտ թեքական ձևերի դեպքում, բայց կանոնների վրա հիմնված համակարգի պարագայում անհրաժեշտ կլինի այլ դեպքերի դիտարկում, օրինակ՝ երկար, բարդ բառերով լեզուներում։ Նման կանոնները կարող են կա՛մ ձեռքով մշակվել, կա՛մ ավտոմատ կերպով դուրս բերվել պիտակավորված կորպուսից։

Կիրառումը կենսաբժշկության մեջ[խմբագրել | խմբագրել կոդը]

Հրապարակված կենսաբժշկական գրականության ձևաբանական վերլուծությունը կարող է օգտակար արդյունքներ տալ։ Կենսաբժշկական տեքստի ձևաբանական մշակումը կարող է ավելի արդյունավետ լինել կենսաբժշկության մեջ կիրառելի բառույթի ներկայացման հատուկ ծրագրի միջոցով և կարող է բարելավել տեղեկության վերհանման նպատակով գործնական առաջադրանքների ճշգրտությունը[8]։


Ծանոթագրություններ[խմբագրել | խմբագրել կոդը]

  1. Collins English Dictionary, entry for "lemmatise"
  2. «WebBANC: Building Semantically-Rich Annotated Corpora from Web User Annotations of Minority Languages» 
  3. Müller Thomas, Cotterell Ryan, Fraser Alexander, Schütze Hinrich (2015)։ Joint Lemmatization and Morphological Tagging with LEMMING։ 2015 Conference on Empirical Methods in Natural Language Processing։ Lisbon: Association for Computational Linguistics։ էջեր 2268–2274։ doi:10.18653/v1/D15-1272։ Արխիվացված է օրիգինալից 2017-10-31-ին։ Վերցված է 2021-03-13 
  4. Bergmanis Toms, Goldwater Sharon։ «Context Sensitive Neural Lemmatization with Lematus»։ Արխիվացված է օրիգինալից 2019-12-31-ին։ Վերցված է 2021-03-13 
  5. Manning Christopher D., Raghavan Prabhakar, Schütze Hinrich։ «Introduction to Information Retrieval»։ Cambridge University Press 
  6. «Lucene Snowball»։ Apache project 
  7. Martin Porter։ «Porter Stemmer» 
  8. Liu H., Christiansen T., Baumgartner W. A., Verspoor K. (2012)։ «BioLemmatizer: A lemmatization tool for morphological processing of biomedical text»։ Journal of Biomedical Semantics 3: 3։ PMC 3359276։ PMID 22464129։ doi:10.1186/2041-1480-3-3