Jump to content

Տեքստի կորպուս

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Տեքստի կորպուս կամ կորպուս (pl. corpora) Լեզվաբանության մեջ լեզվական տվյալների աղբյուր, որը բաղկացած է մեծ և կառուցվածքային տեքստերից (ներկայումս դրանք սովորաբար էլեկտրոնային եղանակով պահվում և մշակվում են)։ Կորպուսային լեզվաբանության մեջ դրանք օգտագործվում են որոշակի լեզվական տարածքում վիճակագրական վերլուծության, վարկածներիի ստուգման, լեզվական կանոնների հաստատման համար։

Կորպուսը կարող է պարունակել մի լեզվով տվյալներ (միալեզու) կամ տվյալներ բազմաթիվ լեզուներով (բազմալեզու)։ Որպեսզի կորպորացիաները ավելի օգտակար լինեն լեզվական հետազոտություններ կատարելու համար, նրանք հաճախ ենթարկվում են մի գործընթացի, որը հայտնի է որպես ծանոթագրություն (անգլ.՝ annotation): Կորպուսային անոտացիայի օրինակ է խոսքիմասային պիտակավորումը կամ POS- պիտակավորումը, որում յուրաքանչյուր բառի խոսքի մասի վերաբերյալ տեղեկատվությունը (բայ, գոյական, ածական և այլն) ավելանում է կորպուսին պիտակների տեսքով։ Մեկ այլ օրինակ է յուրաքանչյուր բառի լեմմայի (հիմքը) մատնանշումը։ Երբ կորպուսի լեզուն այն օգտագործող հետազոտողների աշխատանքային լեզու չէ, ապա անոտացիան երկլեզու դարձնելու համար օգտագործվում է միջշարային լուսաբանում։

Որոշ կորպուսներում կիրառվել են վերլուծության ավելի խորացված կառուցվածքային մակարդակներ։ Մասնավորապես, մի շարք փոքր կորպուսներ կարող են ամբողջությամբ վերլուծվել։ Նման կորպորացիաները սովորաբար կոչվում են կախումնային ծառեր։ Ամբողջ մարմնի ամբողջությամբ և հետևողականորեն ծանոթագրման ապահովման դժվարությունը նշանակում է, որ այդ կորպորացիաները սովորաբար ավելի փոքր են ՝ պարունակելով շուրջ մեկից երեք միլիոն բառ։ Հնարավոր են լեզվական կառուցվածքային վերլուծության այլ մակարդակներ ՝ ներառյալ ձևաբանական, իմաստաբանական և գործաբանական հատույթավորումը։

Կորպորաները կորպուսային լեզվաբանության ուսումնասիրությունների համար հանդիսանում են հիմնական բազաները։ Սակայն կան կիրառման այլ ուղղություններ ևս։

Լեզվական տեխնոլոգիաներ, բնական լեզվի մշակում, համակարգչային լեզվաբանություն

  • Տարբեր տեսակի կորպուսների վերլուծությամբ ու մշակմամբ նույնպես զբաղվում է համակարգչային լեզվաբանությունը։ Այն նաև զբաղվում է խոսքի ճանաչման և մեքենայական թարգմանության հարցերով, որտեղ դրանք Մարկովի մոդելով հաճախ օգտագործվում են՝ ստեղծելու խոսքի պիտակավորման և այլն։ Կորպուսները և դրանցում առկա վիճակագրական ցուցակները օգտակար են լեզվի ուսուցման համար։ Այն կարող է համարվել մի օգնող գործիք, երբ լեզուն ուսումնասիրվում է գրային վիճակում։ Այն օգնում է հասկանալ լեզվի գրավոր օգտագործան ձևերը, հնարավորություն է տալիս ընկալել թիրախային լեզվով նախադասության ձևավորման եղանակը՝ նպաստելով լեզվի ճիշտ օգտագործմանը և գրելուն[1]։
  • Մեքենայական թարգմանություն
    • Բազմալեզու կորպուսները, որոնք հատուկ ձևաչափվել են կողք-կողքի համեմատություններ իրականացնելու համար, այս տեսակի կորպուսները կոչվում են հավասարեցված զուգահեռ կորպուսներ։ Գոյություն ունեն զուգահեռ կորպուսի երկու հիմնական տիպեր, որոնք պարունակում են տեքստեր երկու լեզուներով։ Թարգմանչական խմբում մի լեզվով տեքստերը այլ լեզվով տեքստերի թարգմանություններ են։ Համեմատական կորպուսում տեքստերը նույն տեսակի են և ընդգրկում են նույն բովանդակությունը, բայց դրանք միմյանց թարգմանություններ չեն[2]։ Զուգահեռ տեքստերը օգտագործելու համար նախապայման է տեքստի հավասարեցումը, որը նույնացնում է համարժեք տեքստային հատվածները (արտահայտություններ կամ նախադասություններ)։ Երկու լեզուների համար մեքենայական թարգմանություն աննելու համար, հիմնականում ալգորիթմները այնպիսին են լինում, որ օգտագործվում են զուգահեռ ֆրագմենտներ, որը կրում է մի լեզվի կորպուսը և երկրորդն էլ լինում է բառացի մյուսի թարգմանությունը[3]։
  • Բանասիրություններ
    • Տեքստային կորպուսները նաև օգտագործվում են պատմական փաստաթղթերի ուսումնասիրության մեջ, օրինակ ՝ հին գրերը վերծանելու փորձերի կամ Աստվածաշնչյան հետազոտությունների համար։ Ամենակարճ տևողությամբ կորպուսը կարող է տևել 15-30 տարի՝ ուսումնասիրելու Ամարնա տեքստերը, որոնք թվագրվում են Ք․ա․ 1350 թվականին։ Հին քաղաք կորպուսը, ինչպես Թուրքիայի Քյուլ թեփեի տեքստերն են, կարող է ընդգրկել կորպուսների հավաքածու, որոնք որոշվում են դրանց գտնվելու վայրի տարեթվերով։

Ծանոթագրություններ

[խմբագրել | խմբագրել կոդը]
  1. Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing Արխիվացված 2016-04-02 Wayback Machine. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012.
  2. Wołk, K.; Marasek, K. (2014 թ․ ապրիլի 7). «A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation». Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
  3. Wołk, K.; Marasek, K. (2015). «Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora». Lecture Notes in Artificial Intelligence. Springer: 32–40. arXiv:1509.08639. ISBN 978-3-319-24032-9.

Արտաքին հղումներ

[խմբագրել | խմբագրել կոդը]