Խոսքիմասային պիտակավորում

Վիքիպեդիայից՝ ազատ հանրագիտարանից
Jump to navigation Jump to search

Կորպուսային լեզվաբանության մեջ խոսքիմասային պիտակավորումը (ԽՊ) հայտնի է նաև քերականական պիտակավորում անվամբ։ Այն տեքստում (կորպուսում) բառի խոսքիմասային պատկանելության նշման գործընթացն է[1]՝ սահմանումից և համատեքստից ելնելով։ Առավել պարզեցված սահմանումը դասավանդվում է դպրոցահասակ երեխաներին բառերի նույնականացումների շրջանակում, ինչպիսիք են գոյականը, բայը, ածականը, մակբայը և այլն։

Նախկինում խոսքիմասային պիտակավորումը կատարվում էր ձեռքով, այժմ այն կատարվում է հաշվողական լեզվաբանության համատեքստում որոշակի ալգորիթմների կիրառությամբ, որոնք մեկտեղում են առանձին եզրույթները, ինչպես նաև խոսքի թաքնված մասերը՝ նկարագրական պիտակավորումների օգնությամբ։ Խոսքիմասային պիտակավորման ալգորիթմները բաղկացած են 2 տարաբնույթ խմբերից՝ կանոնային հիմքով և պատահական։ Բրիլլի պիտակավորիչը՝ ամենաշատ կիրառվող անգլալեզու խոսքիմասային պիտակները, կիրառում է կանոնային հիմքով ալգորիթմներ։

Սկզբունք[խմբագրել | խմբագրել կոդը]

Խոսքիմասային պիտակավորումն առավել խրթին է, քան պարզապես բառերի ցուցակն ու դրանց խոսքի մասերի տիրապետումը, քանի որ որոշ բառեր կարող են տարբեր ժամանակներում պատկանել ավելի քան մեկ խոսքի մասի, քանի որ որոշ խոսքի մասեր բարդ են կամ խոսքում հազվադեպ հադնիպող։ Դա հազվագյուտ չէ բնական լեզուներում (ի տարբերություն շատ արհեստական լեզուների). բառաձևերի մեծ մասը երկիմաստ է։ Օրինակ՝ նույնիսկ «dogs» բառը, որը կիրառելիս սովորաբար հոգնակիության քերականական իմաստն են պատկերացնում, կարող է նաև գործածվել որպես բայ՝

The sailor dogs the hatch. Նավաստին փակում է նավի իջանցքի դուռը։

Քերականական ճիշտ պիտակավորումը ցույց կտա, որ «dogs»-ը այստեղ օգտագործվել է որպես բայ, ոչ թե որպես հոգնակի թվով գոյական։ Քերականական համատեքստը քերականական պիտակավորումը որոշելու միջոցներից մեկն է։ Իմաստաբանական վերլուծությունը նույնպես կիրառելի է եզրակացություն անելու համար առ այն, որ «sailor»-ը և «hatch»-ը լրացնում են «dogs»-ին 1) նավորդական համատեքստում և 2) որում «dogs»-ը գործողություն է ցույց տալիս, քանզի "hatch" բառին է վերագրվում (համատեքստում «dogs»-ը նավորդական եզրույթ է՝ «զգուշորեն դուռը փակելու» իմաստով)։

Պիտակավորումների խմբեր[խմբագրել | խմբագրել կոդը]

Դպրոցներում սովորաբար սովորեցնում են, որ անգլերենում կան 9 խոսքի մասեր՝ գոյական, բայ, հոդ, ածական, նախդիր, դերանուն, մակբայ, շաղկապ և կոչական (ձայնարկություն)։ Այնուամենայնիվ, ակնհայտորեն կան խոսքի մասի շատ այլ տեսակներ և ենթատեսակներ։ Գոյականների համար կարելի է առանձնացնել ստացական հոլովի եզակի և հոգնակի ձևերը։ Շատ լեզուներում բառերը առանձնանում են նաև իրենց «հոլովներով» (շարահյուսական դերը որպես ենթակա, խնդիր և այլն), քերականական սեռով և այլն, մինչդեռ բայերն առանձնանում են ժամանակաձևերով, կերպով (ասպեկտ) և այլ ենթատեսակներով։ Նույն բառարմատն ունեցող բառի տարբեր բառաձևեր կարող են պատկանել տարբեր խոսքի մասերի՝ հանգեցնելով մեծաքանակ պիտակավորումների։ Օրինակ՝ NN-ը եզակի թվով հասարակ գոյականների համար, NNS-ը հոգնակի թվով հասարակ գոյականների համար, NP-ն եզակի թվով հատուկ գոյականների համար (տե՛ս Բրաունյան կորպուսում կիրառվող խոսքիմասային պիտակավորումները)։ Պիտակավորման մյուս համակարգերն օգտագործում են ավելի փոքր թվով պիտակավորումներ և անտեսում են մանր տարբերությունները կամ դրանք ձևակերպում են որպես խոսքի մասից որոշ չափով անկախ առանձնահատկություններ[2]։

Համակարգչի միջոցով խոսքիմասային պիտակավորմանը բնորոշ է անգլերենի 50-150 առանձին խոսքի մասերի տարանջատումը։ «Koine Green»-ի (DeRose 1990 թվական) պիտակավորման համար ստոկաստիկ/պատահական մեթոդով աշխատանքում կիրառվել է ավելիքան 1000 խոսքի մաս և պարզվել, որ այդ լեզվում կան նույնքան երկիմաստ բառեր, որքան անգլերենում են։ Ձևաբանաշարահյուսական նույնացուցիչը ձևաբանորեն հարուստ լեզուների դեպքում սովորաբար արտահայտվում է՝ օգտագործելով շատ կարճ մոնեմոնիկա, ինչպիսիք են «Ncmsan»-ը՝ Կատեգորիա = Գոյական, Տեսակ = հասարակ, Սեռ = արական, Թիվ = եզակի, Հոլով = հայցական, Շնչավոր = ոչ։

Ամերիկյան անգլերենով խոսքիմասյին պիտակավորման ամենահայտնի «պիտակավորումների խումբը» հավանաբար «Penn» պիտակների խումբն է, ինչը մշակվել է «Penn Treebank» նախագծի շրջանակներում։ Այն մեծասամբ նման է ավելի վաղ Բրաունյան կորպուսի և «LOB» կորպուսի պիտակավորումների խմբերին, չնայած շատ ավելի փոքր են։ Եվրոպայում «The Eagles Guidelines»-ի պիտակավորման խմբերը լայնորեն կիրառվում են և ներառում են տարբեր լեզուներով պիտակավորումներ։

Խոսքիմասային պիտակավորման աշխատանքները կատարվել են տարբեր լեզուներով, և կիրառվող խոսքիմասային պիտակավորումների խումբը մեծապես տարբերվում է գործածվող լեզվով։ Պիտակավորումները սովորաբար այնպես են ձևավորված, որպեսզի ներառեն ձևաբանական տարանջատումներ. թեպետ դա հանգեցնում է անհամապատասխանությունների, ինչպիսիք են անգլերենում հոլովի նշումը դերանունների համար, ոչ թե գոյականների, և նաև միջլեզվային շատ ավելի մեծ տարբերությունների։ Մասշտաբային փոփոխությունների ենթարկված լեզուների համար, ինչպիսիք են հունարենն ու լատիներենը, պիտակավորումների խմբերն ավելի մեծ կարող են լինել, բառերի պիտակավորումը կցական լեզուներում, ինչպիսիք են ինուիտյան լեզուները, վիրտուալ տիրույթում անհնար է։ Մյուս ծայրահեղ դեպքերի համար Պետրովը և այլք [3] առաջարկել են «համընդհանուր» պիտակավորման խումբ՝ 12 կարգերից բաղկացած (Օրինակ, գոյականների, բայերի, կետադրական ոչ մի ենթատեսակ, բացակայում է նաև «to»-ի տարանջատումը՝ որպես ինֆինիտիվի նշիչ կամ նախդիր, («համընդհանուր» զուգադիպություն) և այլն)։ Հարցը, թե մեծաքանակ պիտակավորումների փոքրաքանակ խումբն է նախընտրելի, թե ավելի ճշգրիտ պիտակավորումների մեծաքանակ խումբը, ուղղակիորեն կախված է նպատակից։ Փոքրաքանակ պիտակավորման խմբի դեպքում ավտոմատացված պիտակավորումն ավելի դյուրին է։

Պատմություն[խմբագրել | խմբագրել կոդը]

Բրաունյան կորպուս[խմբագրել | խմբագրել կոդը]

Խոսքիմասային պիտակավորմանն առնչվող ուսումնասիրությունները սերտորեն կապված են կորպուսային լեզվաբանության հետ։ Համակարգչային վերլուծությամբ անգլերենի առաջին ու գլխավոր կորպուսը Բրաունյան կորպուսն էր, որը մշակվել էր 1960-ականներին Բրաունի համալսարանում Հենրի Կուչերայի ու Նելսոն Ֆրենսիսի կողմից։ Այն բաղկացած է անգլիական արձակում հանդիպող մոտ 1.000.000 բառից՝ պատահական սկզբունքով ընտրված հրատարակությունների 500 նմուշից։ Յուրաքանչյուր նմուշ ներառում է 2000 կամ ավել բառ (առաջին նախադասության վերջում պարունակելով 2000 բառ, որպեսզի կորպուսում ներառվեն միայն ավարտուն նախադասությունները)։

Բրաունյան կորպուսը տարիներ շարունակ ջանասիրաբար «պիտակավորված» էր խոսքիմասային նշիչներով։ Առաջին փորձը կատարվեց «Greene»-ի ու «Rubin»-ի ծրագրով, որը պարունակում էր հսկայական ձեռագործ ցուցակ, թե որ կարգերը կարող են միասին հանդես գալ։ Օրինակ, հոդն ու գոյականը կարող են միասին գործածվել, իսկ հոդն ու բայը (վիճարկելի) չեն կարող։ Ծրագիրը 70%-ով ճիշտ էր գործում։ Դրա արդյունքները բազմիցս վերանայվել են և ձեռքով ստուգվել, իսկ ավելի ուշ օգտվողները կարող էին վրիպակներն ուղարկել շտկելու նպատակով, ուստի 70-ականների վերջին պիտակավորումը գրեթե անսխալ էր (թույլ տալով որոշակի վրիպակներ, որոնց դեպքում նույնիսկ մարդիկ կարող էին սխավել)։

Այս կորպուսը կիրառվել է բառագործածության հաճախականության և խոսքիմասային բազմաթիվ ուսումնասիրություններում և դրդել է շատ այլ լեզուներով նմանատիպ «պիտակավորված» կորպուսների զարգացմանը։ Այդ ուսումնասիրությունների արդյունքում ստացված վիճակագրությունը հիմք են հանդիսացել հետագայում ստեղծված խոսքիմասային պիտակավորման համակարգերի մեծ մասի համար, ինչպիսիք են «CLAWS»-ը (լեզվաբանություն) և «VOLSUNGA»-ն։ Այնուամենայնիվ, այս անգամ (2005 թվական) այն փոխարինվել է ավելի մեծ կորպուսներով, ինչպիսիք են Բրիտանական ազգային կորպուսը՝ 100 միլիոն բառածավալով, չնայած որ ավելի մեծ կորպուսները հազվադեպ են այդքան մանրակրկիտ հավաքագրվում։

Որոշ ժամանակ խոսքիմասային պիտակավորումը համարվում էր բնական լեզվի մշակման բաժանելի մաս, քանի որ կան որոշակի դեպքեր, երբ ճիշտ ընտրված խոսքի մասը հնարավոր չէ որոշել առանց հասկանալու համատեքստի իմաստաբանությունը կամ նույնիսկ գործաբանությունը։ Սա բավականին բազմաշերտ է մասնավորապես այն պատճառով, որ ավելի բարձր մակարդակների վերլուծությունը շատ ավելի դժվար է, երբ յուրաքանչյուր բառի համար խոսքիմասային մի քանի հնարավորություն պետք է հաշվի առնել։

Մարկովյան թաքնված մոդելների կիրառում[խմբագրել | խմբագրել կոդը]

1980-ականների կեսին Եվրոպայում հետազոտողները սկսեցին կիրառել Մարկովյան թաքնված մոդելները (ՄԹՄ) խոսքի մասերը տարանջատելու համար, երբ աշխատում էին բրիտանական անգլերենով Լանքասթեր-Օսլո-Բերգեն կորպուսը պիտակավորելու համար։ Մոդելները ներառում են օրինակների հաշվարկը (օրինակ Բրաունյան կորպուսից) և որոշակի հավանական դասակարգումների աղյուսակի կազմում։ Օրինակ ՝ եթե հանդիպել եք «the» հոդը, դեպքերի 40%-ում հոդին հաջորդում է գոյականը, 40%-ի դեպքում՝ ածականը և 20%-ի պարագայում՝ թվականը։ Դա իմանալով՝ ծրագիրը որոշում է, որ «can»-ը «the can»-ում ավելի հավանական է, որ գոյական լինի, քան բայ կամ մոդալ բալ։ Նույն մեթոդը կիրառելիս, իհարկե, կարելի է օգուտ քաղել հետևյալ բառերի վերաբերյալ տեղեկությունից։

Ժամանակակից ՄԹՄ-ները տիրապետում են ոչ միայն երկանդամ, այլ եռանդամ կամ նույնիսկ ավելի մեծ թվով կազմությունների հավանականություններին։ Այսպիսով, օրինակ, եթե գոյական է հանդիպում, որին հաջորդում է բայը, ապա հաջորդ անդամը հավանական է, որ լինի նախդիր, հոդ կամ գոյական, բայց շատ ավելի քիչ հավանական է մեկ այլ բայի գործածությունը։

Երբ մի քանի երկիմաստ բառեր միասին են գործածվում, հնարավորությունները բազմապատկվում են։ Այնուամենայնիվ, հեշտ է յուրաքանչյուր համադրություն թվարկելը և յուրաքանչյուրի համար հարաբերական հավանականություն որոշելը՝ հերթով բազմապատկելով յուրաքանչյուր ընտրության հավանականությունը։ Դրանից հետո ընտրվում է ամենաբարձր հավանականությամբ համադրությունը։ Եվրոպական խումբը մշակեց «CLAWS»-ը՝ պիտակավորման ծրագիր, որը հենց դա իրականցրեց 93-95% ճշգրտությամբ։

Հարկ է հիշել,որ ինչպես Յուջին Չերնիակն է նշում «Statistical techniques for natural language parsing»-ում (1997 թվական)[4], որ յուրաքանչյուր հայտնի բառի մոտ ամենատարածված պիտակի նշումը և «հատուկ գոյական» պիտակի նշումը բոլոր անհայտ բառերի մոտ կհանգեցնեն 90% ճշգրտության, քանի որ շատ բառեր մենիմաստ են, իսկ շատ ուրիշներ հազվադեպ են ներկայանում ավելի քիչ տարածված խոսքի մասով։

«CLAWS»-ը առաջինն էր ՄԹՄ-ի վրա հիմնված խոսքիմասային պիտակավորման ոլորտում, սակայն այն բազմաշերտ էր, քանի որ թվարկում էր բոլոր հնարավորությունները։ Այն երբեմն ստիպված էր դիմել պահուստային մեթոդների, երբ տարբերակները շատ էին (Բրաունյան Կորպուսում կա մի դեպք ՝ 17 երկիմաստ բառերով, և կան նաև բառեր, ինչպիսին «still»-ն է, որոնք կարող են պարունակել 7 տարբեր խոսքի մասեր (DeRose 1990 թվական, էջ 82))։

ՄԹՄ-ների հիմքում ընկած են ստոկաստիկ/պատահական պիտակավորիչները և կիրառվում են տարաբնույթ ալգորիթմներում, որոնցից ամենատարածվածներից է երկկողմանի եզրակացության ալգորիթմը[5]։

Դինամիկ ծրագրավորման մեթոդներ[խմբագրել | խմբագրել կոդը]

1987 թվականին Սթիվեն Դերոզը[6] և Քեն Չըրչը[7] ինքնուրույն մշակեցին դինամիկ ծրագրավորման ալգորիթմներ նույն խնդիրը շատ ավելի կարճ ժամանակում լուծելու համար։ Նրանց մեթոդները նման էին Վիթըրբիի ալգորիթմին, որը որոշ ժամանակ հայտնի էր այլ ոլորտներում։ ԴեՐոզը օգտագործում էր երկկազմ բառերի աղյուսակ, մինչդեռ Չըրչը` եռակազմ բառերի աղյուսակ և եռակազմ բառերի նշանակությունը թվարկող մեթոդ։ Այդ եռակազմ բառերը հազվադեպ էին հանդիպում կամ բացակայում էին Բրաուն Կորպուսում (եռակազմ բառերի հավանականությունների իրական չափը կպահանջեր շատ ավելի մեծ կորպուս)։ Երկու մեթոդներն էլ հասել են ավելի քան 95% ճշգրտության։ ԴեՐոզի 1990 թվականի ատենախոսութունը Բրաունի համալսարանում վերաբերում էր նաև վրիպակներիի հատուկ տեսակների, հավանականությունների և դրանց առնչվող այլ տվյալների վերլուծությանը։ ԴեՐոզը թարգմանեց իր աշխատանքը հունարեն լեզվով, որով աշխատանքը նույնքան արդյունավետ էր։

Այս նորագյուտ տվյալները զարմանալիորեն խաթարում էին բնական լեզվի մշակման ոլորտը։ Տվյալների ճշգրտությունն ավելի բարձր էր, քան շատ բարդ ալգորիթմներին բնորոշ ճշգրտությունը, որոնք միավորում էին խոսքիմասային ընտրությունը լեզվաբանական վերլուծության ավելի բարձր մակարդակների հետ՝ շարահյուսություն, ձևաբանություն, իմաստաբանություն և այլն։ «CLAWS»- ի, «DeRose»- ի և «Church»-ի մեթոդները ձախողում էին որոշ դեպքերում, երբ իմաստաբանություն էր պահանջվում, բայց այդ դեպքերը անհամեմատ հազվադեպ են եղել։ Սա այդ ոլորտում շատերին համոզեց, որ խոսքիմասային պիտակավորումը կարող է օգտավետ առանձնացվել մշակման մյուս մակարդակներից. սա, իր հերթին, պարզեցրեց համակարգչային լեզվի վերլուծության տեսությունն ու պրակտիկան և քաջալերեց հետազոտողներին մնացած մասերը նույնպես առանձնացնելու ուղիներ գտնել։ Մարկովյան մոդելներն այժմ խոսքիմասային նշման համար ստանդարտ մեթոդն են։

Չվերահսկվող պիտակավորիչներ[խմբագրել | խմբագրել կոդը]

Արդեն իսկ քննարկված մեթոդները ենթադրում են աշխատել նախապես գոյություն ունեցող կորպուսից պիտակավորման հավանականությունները ուսումնասիրելու համար։ Այնուամենայնիվ, հնարավոր է նաև «bootstrap»-ի գործարկում `օգտագործելով «չվերահսկվող» պիտակը։ Չվերահսկվող պիտակավորման տեխնիկան իրենց ուսուցման տվյալների համար օգտագործում է չպիտակավորված կորպուս և ներգրավման միջոցով առաջացնում է պիտակների խումբ։ Այսինքն՝ նրանք բառագործածության մեջ դիտարկում են օրինաչափություններ և բխեցնում խոսքիմասային կարգեր։ Օրինակ, վիճակագրությունը ցույց է տալիս, որ «the»-ն, «a»-ն և«an»-ը հանդիպում են նմանատիպ համատեքստերում, մինչդեռ «eat»-ը հանդիպում է շատ տարբեր համատեքստում։ Բավարար կրկնության դեպքում առաջանում են բառերի նմանության դասեր, որոնք զգալիորեն նման են նրանց, որոնք լեզվաբանները կակնկալեին, իսկ տարբերությունները երբեմն ենթադրում են նոր, արժեքավոր գաղափարներ։

Այս երկու կարգերը կարելի է բաժանել կանոնային հիմքով, ստոկաստիկ/պատահական և նյարդային մոտեցումների։

Այլ պիտակավորիչներ ու մեթոդներ[խմբագրել | խմբագրել կոդը]

Խոսքիմասային պիտակավորման համար որոշ հիմնական ալգորիթմներ ներառում են «Viterbi algorithm»-ը, «Brill tagger»-ը, «Constraint Grammar»-ը, (հայտնի է նաև որպես ետ ու առաջ ալգորիթմ)։ Մարկովի թաքնված մոդելը և Մարկովի տեսանելի մոդելի պիտակավորիչները երկուսն էլ կարող են կիրառվել «Viterbi» ալգորիթմի միջոցով։ Կանոնային հիմքով «Brill» պիտակավորիչը տարբերվում է նրանով, որ այն սովորեցնում է մի շարք կանոնների օրինաչափություններ, այնուհետև կիրառում է այդ օրինաչափությունները, այլ ոչ թե օպտիմալացնում վիճակագրական նյութը։ Ի տարբերություն «Brill» պիտակավորիչի, որտեղ կանոնները դասակարգված են հաջորդաբար, խոսքիմասային և ձևաբանական պիտակավորման գործիք՝ «RDRPOSTagger»-ը պահպանում է կանոնները կախումների ծառի տեսքով։

Խոսքիմասային պիտակավորման խնդրի պատճառով նաև մեքենայական ուսուցման բազմաթիվ մեթոդներ են կիրառվել։ Փորձարկվել են այնպիսի մեթոդներ, ինչպիսիք են «SVM»-ը, «maximum entropy classifier»-ը, «perceptron»-ը, և «nearest-neighbor»-ը, դրանց մեծ մասը կարող է հասնել 95% -ից բարձր ճշգրտության։

Մի քանի մեթոդների ուղղակի համեմատություն է հաղորդվում (հղումներով) «ACL Wiki»-ում[8]։ Այս համեմատությունը կիրառում է «Penn» պիտակավորման խումբը «Penn Treebank»- ի որոշ տվյալների հիման վրա, ուստի արդյունքները ուղղակիորեն համեմատելի են։ Այնուամենայնիվ, շատ կարևոր պիտակավորիչներ ներառված չեն (գուցե այն աշխատանքի պատճառով, որը ներգրավված է որոշակի տվյալների բազայի վերաձևակերպման գործում)։ Այսպիսով, չպետք է ենթադրել, որ այստեղ զեկուցված արդյունքները լավագույնն են, որին կարելի է հասնել տվյալ մոտեցմամբ, ոչ էլ լավագույնն են, որին արդեն իսկ հասել են տվյալ մոտեցմամբ։

2014 թվականին մի ամսագիր զեկուցեց, որ խոսքիմասային պիտակավորման համար կառուցվածքի կանոնակարգման մեթոդի կիրառմամբ հասել են 97.36% ճշգրտության ստանդարտ ելակետային տվյալների բազայի հիման վրա[9]։

Խնդիրներ[խմբագրել | խմբագրել կոդը]

Չնայած հիմնական կարգերի վերաբերյալ համաձայնությանը, մի քանի ծայրահեղ դեպքեր դժվարացնում են գտնել պիտակավորումների մեկ «ճիշտ» խումբ նույնիսկ որոշակի լեզվով, ինչպիսին է անգլերենը։ Օրինակ ՝ դժվար է ասել ՝ «fire»-ը ածական է, թե գոյական տվյալ դեպքում.՝

 «the big green fire truck»:

Երկրորդ կարևոր օրինակը կիրառման/նշման տարբերակումն է, ինչպես հետևյալ օրինակում, որտեղ «blue»-ն կարող էր փոխարինվել ցանկացած խոսքիմասային պիտակավորումով (Բրաունյան կորպուսի պիտակների խումբը նման դեպքերում կցում է «-NC» վերջածանցը).

 «the word "blue" has 4 letters»:

Ի տարբերություն «գլխավոր» տեքստի բառերի՝ լեզվի բառերը ունեն «օտար» պիտակավորումը։ Բրաունյան կորպուսում այս պիտակը՝ «-FW»-ն, կիրառվում է ի լրումն պիտակի նրա համար,թե ինչ դեր է խաղում օտար բառը համատեքստում, որոշ այլ կորպուսներ պարզապես դեպքերը նշում են որպես «օտար», ինչն ավելի հեշտ է, բայց քիչ օգտագործվող հետագա շարահյուսական վերլուծության համար։

Կան նաև բազմաթիվ դեպքեր, երբ խոսքիմասային պիտակավորման կարգերը և «բառերը» չեն քարտեզագրում միմյանց, օրինակ.

 «as far as
 David's
 Gonna
 don't
 vice versa
 first-cut
 cannot
 pre- and post-secondary
 look (a word) up»:

Վերջին օրինակում «look»-ը և «up»-ը որպես մեկ ամբողջական բայական միավոր են գործածվել՝ չնայած նրանց միջև այլ բառերի տեղայնացման հնարավորությանը։ Պիտակների որոշ խմբեր (օրինակ ՝ «Penn»-ը) գծանշված բառերը, կրճատումները և ստացական հոլովները առանձնացված են ըստ իրենց հատկանիշների՝ այդպիսով խուսափելով որոշ, բայց տվյալ դեպքում բոլոր նմանատիպ խնդիրներից։

Պիտակների բազմաթիվ խմբեր «be», «have» և «do» բառերը համարում են կարգեր (ինչպես Բրաունյան կորպուսում), մինչդեռ մի քանիսը դրանք համարում են պարզապես բայեր (օրինակ ՝ «LOB Corpus»-ը և «Penn Treebank»- ը)։ Քանի որ հենց այդ բառերն ավելի շատ ձևեր ունեն, քան անգլերեն այլ բայեր, որոնք հանդիպում են քերականական տարբեր համատեքստերում, դրանք պարզապես «բայեր» համարելը նշանակում է, որ խոսքիմասային պիտակավորման պիտակավորիչը շատ ավելի քիչ տեղեկատվություն ունի շարունակելու համար։ Օրինակ, ՄԹՄ-ի վրա հիմնված պիտակավորիչը միայն կհասկանար ընդհանուր հավանականությունները, թե ինչպես են «բայերը» հանդիպում այլ խոսքի մասերի մոտ, ոչ թե կուսումնասիրեր տարբեր բայերի իրար մոտ համընկնելու հավանականությունները «do», «have», «be» և այլ բայերի համար։ Այս անգլերեն բառերը բավականին տարբեր բաշխվածություն ունեն. Չի կարելի պարզապես այլ բայեր փոխարինել այս բայերով։ Առանձնացված պիտակների օգնությամբ ՄԹՄ-ն հաճախ կարող է կանխատեսել ճիշտ,մանրամասնորեն ընտրված պիտակը, այլ ոչ թե ցանկացած պահի հավասարապես առնչվել որևէ «բայի»։

Ոմանք պնդում են, որ այս առանձնահատկությունը վիճելի է, քանի որ ծրագիրը միայն ստուգում է ուղղագրությունը.՝ «this 'verb' is a 'do' because of the spelling»: Այնուամենայնիվ, սա ձախողվում է սխալ ուղղագրության պատճառով, չնայած որ դրանք ՄԹՄ-ի օգնությամբ հաճախ կարող են ճշգրիտ կերպով պիտակավորվել։

Ծանոթագրություններ[խմբագրել | խմբագրել կոդը]

  1. «POS tags»։ Sketch Engine։ Lexical Computing։ 2018-03-27։ Վերցված է 2018-04-06 
  2. Universal POS tags
  3. Petrov Slav, Das Dipanjan, McDonald Ryan (11 Apr 2011)։ A Universal Part-of-Speech Tagset 
  4. Eugene Charniak
  5. CLL POS-tagger
  6. DeRose, Steven J. 1988. "Grammatical category disambiguation by statistical optimization." Computational Linguistics 14(1): 31–39. [1]
  7. Kenneth Ward Church (1988)։ «A stochastic parts program and noun phrase parser for unrestricted text»։ ANLC '88: Proceedings of the Second Conference on Applied Natural Language Processing. Association for Computational Linguistics Stroudsburg, PA: 136։ doi:10.3115/974235.974260 
  8. POS Tagging (State of the art)
  9. Xu Sun (2014)։ Structure Regularization for Structured Prediction։ Neural Information Processing Systems (NIPS)։ էջեր 2402–2410։ Արխիվացված է օրիգինալից 2016-04-03-ին։ Վերցված է 2014-11-26 

Հետագա ընթերցանություն[խմբագրել | խմբագրել կոդը]

  • Charniak, Eugene. 1997. "Statistical Techniques for Natural Language Parsing". AI Magazine 18(4):33–44.
  • Hans van Halteren, Jakub Zavrel, Walter Daelemans. 2001. Improving Accuracy in NLP Through Combination of Machine Learning Systems. Computational Linguistics. 27(2): 199–229. PDF
  • DeRose, Steven J. 1990. "Stochastic Methods for Resolution of Grammatical Category Ambiguity in Inflected and Uninflected Languages." Ph.D. Dissertation. Providence, RI: Brown University Department of Cognitive and Linguistic Sciences. Electronic Edition available at [2]
  • D.Q. Nguyen, D.Q. Nguyen, D.D. Pham and S.B. Pham (2016). "A Robust Transformation-Based Learning Approach Using Ripple Down Rules for Part-Of-Speech Tagging." AI Communications, vol. 29, no. 3, pages 409-422. [.pdf]