Մասնակից:Aletajanamyan/Ավազարկղ

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Տեքստի կորպուս կամ կորպուս (pl. corpora) Լեզվաբանության մեջ լեզվի ռեսուրս, որը բաղկացած է մեծ և կառուցվածքային տեքստերից (ներկայումս դրանք սովորաբար էլեկտրոնային եղանակով պահվում և մշակվում են): Կորպուսային լեզվաբանության մեջ դրանք օգտագործվում են վիճակագրական վերլուծություն և վարկածի ստուգում, դեպքերի ստուգում կամ լեզվական կանոնների հաստատում որոշակի լեզվական տարածքում:

Ակնարկ[խմբագրել | խմբագրել կոդը]

Դիրքը կարող է պարունակել մեկ լեզվով տեքստեր (միալեզու) կամ տեքստային տվյալներ բազմաթիվ լեզուներով (բազմալեզու): Որպեսզի կորպորացիաները ավելի օգտակար լինեն լեզվական հետազոտություններ կատարելու համար, նրանք հաճախ ենթարկվում են մի գործընթացի, որը հայտնի է որպես ծանոթագրություն: Կորպուսի անոտացիայի օրինակ է խոսքի մաս-պիտակավորում կամ POS- պիտակավորումը, որում յուրաքանչյուր բառի խոսքի մասի վերաբերյալ տեղեկատվություն (բայ, գոյական, ածական և այլն) ավելանում է կորպուսին ՝ պիտակների տեսքով: Մեկ այլ օրինակ է մատնանշում յուրաքանչյուր բառի լեմման (հիմքը) ձևը: Երբ կորպուսի լեզուն այն օգտագործող հետազոտողների աշխատանքային լեզու չէ, ապա անոտացիան երկլեզու դարձնելու համար օգտագործվում է միջշարային լուսաբանում:

Որոշ կորպորացիաներում կիրառվել են վերլուծության հետագա կառուցվածքային մակարդակներ: Մասնավորապես, մի շարք փոքր կորպորացիաներ կարող են ամբողջությամբ վերլուծվել: Նման կորպորացիաները սովորաբար կոչվում են Treebanks կամ Parsed Corporate: Ամբողջ մարմնի ամբողջությամբ և հետևողականորեն ծանոթագրման ապահովման դժվարությունը նշանակում է, որ այդ կորպորացիաները սովորաբար ավելի փոքր են ՝ պարունակելով շուրջ մեկից երեք միլիոն բառ: Հնարավոր են լեզվական կառուցվածքային վերլուծության այլ մակարդակներ ՝ ներառյալ ձևաբանության, իմաստաբանության և պրագմատիկայի ծանոթագրություները:

Դիմումներ[խմբագրել | խմբագրել կոդը]

Կորպուսները կորպուսի լեզվաբանության հիմնական գիտելիքների բազան են: Կիրառման այլ նշանավոր ոլորտները ներառում են.

  • Լեզվի տեխնոլոգիա, բնական լեզվի մշակում, հաշվարկային լեզվաբանություն
    • Տարբեր տեսակի կորպորացիաների վերլուծությունն ու մշակումը նաև մեծ աշխատանք են կատարում հաշվարկային լեզվաբանության, խոսքի ճանաչման և մեքենայական թարգմանության ոլորտում, որտեղ դրանք հաճախ օգտագործվում են խոսքի պիտակավորման մասի և այլ նպատակների համար թաքնված Մարկովի մոդելներ ստեղծելու համար: Կորպորացիաները և դրանցից բխող հաճախականությունների ցուցակները օգտակար են լեզվի ուսուցման համար: Կորպորացիաները կարող են համարվել որպես օտարալեզու գրելու օգնության տեսակ, քանի որ ոչ բնիկ լեզու օգտագործողների կողմից ձեռք բերված համատեքստային քերականական գիտելիքները կորպորացիաներում վավեր տեքստերի ազդեցության միջոցով սովորողներին հնարավորություն է տալիս ընկալել թիրախ լեզվով նախադասության ձևավորման եղանակը ՝ հնարավորություն տալով արդյունավետ գրել[1]:
  • Մեքենայական թարգմանություն
    • Բազմալեզու կորպորացիաները, որոնք հատուկ ձևաչափվել են կողք-կողքի համեմատության համար, կոչվում են հավասարեցված զուգահեռ կորպորացիաներ: Գոյություն ունեն զուգահեռ կորպուսի երկու հիմնական տիպեր, որոնք պարունակում են տեքստեր երկու լեզուներով: Թարգմանչական խմբում մի լեզվով տեքստերը այլ լեզվով տեքստերի թարգմանություններ են: Համեմատելի կորպուսում տեքստերը նույն տեսակի են և ընդգրկում են նույն բովանդակությունը, բայց դրանք միմյանց թարգմանություններ չեն:[2] parallelուգահեռ տեքստը շահագործելու համար նախապայման է տեքստի հավասարեցում, որը նույնացնում է համարժեք տեքստային հատվածներ (արտահայտություններ կամ նախադասություններ): վերլուծության համար: Երկու լեզուների միջև թարգմանության մեքենայական ալգորիթմները հաճախ ուսուցանվում են `օգտագործելով զուգահեռ բեկորներ, որոնք բաղկացած են առաջին լեզվով կազմվածքով և երկրորդ լեզվով կազմվածքով, որն առաջին լեզվի կորպուսի տարրի համար էլեմենտ է:[3]
  • Բանասիրություններ
    • Տեքստային մարմինները նույնպես օգտագործվում են պատմական փաստաթղթերի ուսումնասիրության մեջ, օրինակ ՝ հին գրերը վերծանելու փորձերի կամ աստվածաշնչյան կրթաթոշակների ժամանակ: Որոշ հնագիտական կորպորացիաներ կարող են լինել այնքան կարճ տևողությամբ, որ ժամանակին տալիս են նկար: Timeամանակի ամենակարճ կորպորացիաներից մեկը կարող է լինել 15–30 տարվա Amarna տառերի տեքստերը (մ.թ.ա. 1350): Հին քաղաքի կորպուսը (օրինակ ՝ Թուրքիայի «Կյուլտեպե տեքստերը») կարող է անցնել մի շարք կորպորացիաներ, որոնք որոշվում են դրանց գտնվելու վայրի տարեթվերով:

Տես նաև[խմբագրել | խմբագրել կոդը]

Ծանոթագրություններ[խմբագրել | խմբագրել կոդը]

  1. Yoon, H., & Hirvela, A. (2004). ESL Student Attitudes toward Corpus Use in L2 Writing. Journal of Second Language Writing, 13(4), 257–283. Retrieved 21 March 2012.
  2. Wołk, K.; Marasek, K. (7 April 2014). «A Sentence Meaning Based Alignment Method for Parallel Text Corpora Preparation». Advances in Intelligent Systems and Computing. Springer. 275: 107–114. arXiv:1509.09090. doi:10.1007/978-3-319-05951-8_11. ISBN 978-3-319-05950-1. ISSN 2194-5357. S2CID 15361632.
  3. Wołk, K.; Marasek, K. (2015). «Tuned and GPU-accelerated Parallel Data Mining from Comparable Corpora». Lecture Notes in Artificial Intelligence. Springer: 32–40. arXiv:1509.08639. ISBN 978-3-319-24032-9.