Jump to content

Լեզվի մոդել

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Լեզվի մոդելը հաշվողական մոդել է, որը կանխատեսում է հաջորդականությունները բնական լեզվում։[1][2] Լեզվի մոդելները օգտակար են տարբեր խնդիրների համար, ներառյալ խոսքի ճանաչումը,[3] մեքենայական թարգմանությունը,[4] օպտիկական նիշերի ճանաչումը, երթուղու օպտիմալացումը,[5] ձեռագրի ճանաչումը,[6] քերականության ինդուկցիան,[7] և տեղեկատվության վերականգնումը։[8][9]

Մեծ լեզվական մոդելները (LLM), որոնք 2019 թվականի դրությամբ, հիմնականում հիմնված են ավելի մեծ տվյալների հավաքածուների վրա մարզված տրանսֆորմերների վրա (հաճախ օգտագործելով հանրային ինտերնետից վերցված տեքստեր): Դրանք փոխարինել են կրկնվող նեյրոնային ցանցերի վրա հիմնված մոդելներին, որոնք նախկինում փոխարինել էին զուտ վիճակագրական մոդելներին, ինչպիսին է n-գրամ լեզվի մոդելը:

Նոամ Չոմսկին 1950-ականներին լեզվական մոդելների վերաբերյալ առաջատար աշխատանք կատարեց՝ մշակելով ֆորմալ քերականությունների տեսություն:[10]

1980 թվականին ուսումնասիրվեցին վիճակագրական մոտեցումները և պարզվեց, որ շատ նպատակների համար դրանք ավելի օգտակար են, քան կանոնների վրա հիմնված ֆորմալ քերականությունները: Բառերի n-գրամ լեզվական մոդելների նման դիսկրետ ներկայացումները՝ դիսկրետ համակցությունների հավանականություններ, զգալի առաջընթաց գրանցեցին:

2000-ականներին բառերի շարունակական ներկայացումները, ինչպիսիք են բառերի վեկտորական ներկայացումը, սկսեցին փոխարինել դիսկրետ ներկայացումներին:[11] Որպես կանոն, ներկայացումը իրական վեկտոր է, որը կոդավորում է բառի իմաստը այնպես, որ վեկտորային տարածությունում իրար մոտ գտնվող բառերը, ենթադրաբար իմաստով նման կլինեն։

Զուտ վիճակագրական մոդելներ

[խմբագրել | խմբագրել կոդը]

1980 թվականին առաջարկվեց առաջին նշանակալի վիճակագրական լեզվի մոդելը, և շուրջ մեկ տասնամյակ IBM-ը իրականացրեց «Շենոնի ոճով» փորձեր, որոնց ընթացքում լեզվի մոդելավորման բարելավման պոտենցիալ աղբյուրները բացահայտվեցին՝ դիտարկելով և վերլուծելով մարդկային սուբյեկտների կատարողականը՝ տեքստը կանխատեսելու կամ ուղղելու հարցում:[12]

Բառերի n-գրամների վրա հիմնված մոդելներ

[խմբագրել | խմբագրել կոդը]

word n-գրամ լեզվի մոդելը լեզվի վիճակագրական մոդել է, որը հաջորդականության մեջ հաշվարկում է հաջորդ բառի առաջացման հավանականությունը նախորդ բառերի քանակի ֆիքսված չափից ելնելով։ Եթե հաշվի է առնվում մեկ նախորդ բառ, դա բիգրամ մոդել է, եթե երկու բառ՝ եռագրամ մոդել, եթե n − 1 բառ՝ n-գրամ մոդել։[13]

Նախադասության սկիզբը և վերջը նշելու համար ներմուծվում են հատուկ նշաններ․ and .

Բառերի n-գրամ մոդելները մեծ մասամբ փոխարինվել են ռեկուրենտ նեյրոնային ցանցերի վրա հիմնված մոդելներով, որոնք էլ իրենց հերթին փոխարինվել են Տրանսֆորմերի վրա հիմնված մոդելներով, որոնք հաճախ անվանում են մեծ լեզվի մոդելներ:[14]

Էքսպոնենցիալ

[խմբագրել | խմբագրել կոդը]

Առավելագույն էնտրոպիայի սկզբունքը լեզվական մոդելները կոդավորում են բառի և n-գրամի պատմության միջև եղած կապը՝ օգտագործելով հատկանիշային ֆունկցիաներ: Հավասարումն է՝

որտեղ տրոհման ֆունկցիան է, ը՝ պարամետրային վեկտորը, իսկ Պարզագույն դեպքում հատկանիշային ֆունկցիան պարզապես որոշակի n-գրամի առկայության ցուցիչ է:

1-skip-2-grams «the rain in Spain falls mainly on the plain» տեքստի համար

Skip-gram լեզվի մոդելը նախորդ մոդելի (այսինքն՝ Word n-gram լեզվի մոդելի) առջև ծառացած տվյալների նոսրության խնդիրը հաղթահարելու փորձ է։ Ներկառուցված վեկտորում ներկայացված բառերը այլևս պարտադիր չէ, որ հաջորդական լինեն, այլ կարող են թողնել բացեր, որոնք բաց են թողնվում (այստեղից էլ՝ «skip-gram» անվանումը)։[15]

Նեյրոնային մոդելներ

[խմբագրել | խմբագրել կոդը]

Պարբերական նեյրոնային ցանց

[խմբագրել | խմբագրել կոդը]

Պարբերական նեյրոնային ցանցերի վրա հիմնված լեզվական մոդելներում (հայտնի են նաև որպես անընդհատ տարածական լեզվական մոդելներ) ստեղծվում են բառերի անընդհատ ներկայացումներ կամ վեկտորներ:[16] Նման անընդհատ տարածության վեկտորական ներկայացումները օգնում են մեղմել չափայնության խնդիրը, որը բառերի հնարավոր հաջորդականությունների քանակի էքսպոնենցիալ աճի հետևանք է բառապաշարի չափի հետ մեկտեղ, ինչը հետագայում առաջացնում է տվյալների նոսրության խնդիր: Նեյրոնային ցանցերը խուսափում են այս խնդրից՝ բառերը ներկայացնելով որպես կշիռների ոչ գծային համադրություններ նեյրոնային ցանցում:[17]

Մեծ լեզվի մոդելը (LLM) լեզվական մոդել է, որը մարզված ինքնավերահսկվող մեքենայական ուսուցմամբ՝ հսկայական ծավալի տեքստի վրա, որը նախատեսված է բնական լեզվի մշակման խնդիրների համար, մասնավորապես լեզվի գեներացիա:[18][19] Ամենամեծ և ամենաունակ LLM-ները գեներատիվ նախապես մարզված տրանսֆորմերներն (GPT) են, որոնք ապահովում են ժամանակակից չաթբոտների հիմնական հնարավորությունները: LLM-ները կարող են ճշգրտվել որոշակի առաջադրանքների համար կամ ուղղորդվել հրահանգների ինժեներիայի միջոցով: [20] Այս մոդելները ձեռք են բերում մարդկային լեզվի կորպուսներին բնորոշ շարահյուսության, իմաստաբանության և օնտոլոգիաների կանխատեսողական ուժ,[21] բայց նաև ժառանգում են անճշտություններ և կողմնակալություններ, որոնք առկա են այն տվյալներում, որոնց վրա դրանք մարզվում են:[22]

Դրանք բաղկացած են միլիարդներից մինչև տրիլիոններ պարամետրերից և գործում են որպես ընդհանուր նշանակության հաջորդականության մոդելներ՝ ստեղծելով, ամփոփելով, թարգմանելով և դատողություններ անելով տեքստի վրա: Մեծ լեզվի մոդելները (LLM) ներկայացնում են նշանակալի նոր տեխնոլոգիա՝ նվազագույն վերահսկողությամբ առաջադրանքներն ընդհանրացնելու իրենց ունակությամբ, որը թույլ է տալիս այնպիսի հնարավորություններ օգտագործել, ինչպիսիք են խոսակցական գործակալները, կոդի ստեղծումը, գիտելիքների վերականգնումը և ավտոմատացված դատողությունները, որոնք նախկինում պահանջում էին հատուկ պատվերով ​​համակարգեր:[23]

Ծանոթագրություններ

[խմբագրել | խմբագրել կոդը]
  1. Blank, Idan A. (2023 թ․ նոյեմբեր). «What are large language models supposed to model?». Trends in Cognitive Sciences. 27 (11): 987–989. doi:10.1016/j.tics.2023.08.006. PMID 37659920."LLMs are supposed to model how utterances behave."
  2. Jurafsky, Dan; Martin, James H. (2021). «N-gram Language Models» (PDF). Speech and Language Processing (3rd ed.). Արխիվացված օրիգինալից 2022 թ․ մայիսի 22-ին. Վերցված է 2022 թ․ մայիսի 24-ին.
  3. Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
  4. Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" Արխիվացված 15 Օգոստոս 2020 Wayback Machine. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  5. Liu, Yang; Wu, Fanyou; Liu, Zhiyuan; Wang, Kai; Wang, Feiyue; Qu, Xiaobo (2023). «Can language models be used for real-world urban-delivery route optimization?». The Innovation. 4 (6) 100520. Bibcode:2023Innov...400520L. doi:10.1016/j.xinn.2023.100520. PMC 10587631. PMID 37869471.
  6. Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" Արխիվացված 11 Նոյեմբեր 2020 Wayback Machine. 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
  7. Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication" Արխիվացված 14 Օգոստոս 2022 Wayback Machine. 1808.10000 .
  8. Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval. Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. էջեր 275–281. doi:10.1145/290941.291008.
  9. Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval. Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. էջեր 569–584. doi:10.1007/3-540-49653-X_34.
  10. Chomsky, N. (1956 թ․ սեպտեմբեր). «Three models for the description of language». IRE Transactions on Information Theory. 2 (3): 113–124. Bibcode:1956IRTIT...2..113C. doi:10.1109/TIT.1956.1056813. ISSN 2168-2712.
  11. «The Nature Of Life, The Nature Of Thinking: Looking Back On Eugene Charniak's Work And Life» (անգլերեն). 2022-02-22. Արխիվացված օրիգինալից 2024 թ․ նոյեմբերի 3-ին. Վերցված է 2025-02-05-ին.
  12. Rosenfeld, Ronald (2000). «Two decades of statistical language modeling: Where do we go from here?». Proceedings of the IEEE. 88 (8): 1270–1278. Bibcode:2000IEEEP..88.1270R. doi:10.1109/5.880083. S2CID 10959945.
  13. Քաղվածելու սխալ՝ Սխալ <ref> պիտակ՝ «jm» անվանումով ref-երը տեքստ չեն պարունակում:
  14. Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (2003 թ․ մարտի 1). «A neural probabilistic language model». The Journal of Machine Learning Research. 3: 1137–1155 via ACM Digital Library.
  15. David Guthrie; և այլք: (2006). «A Closer Look at Skip-gram Modelling» (PDF). Արխիվացված է օրիգինալից (PDF) 2017 թ․ մայիսի 17-ին. Վերցված է 2014 թ․ ապրիլի 27-ին.
  16. Karpathy, Andrej. «The Unreasonable Effectiveness of Recurrent Neural Networks». Արխիվացված օրիգինալից 2020 թ․ նոյեմբերի 1-ին. Վերցված է 2019 թ․ հունվարի 27-ին.
  17. Bengio, Yoshua (2008). «Neural net language models». Scholarpedia. Vol. 3. էջ 3881. Bibcode:2008SchpJ...3.3881B. doi:10.4249/scholarpedia.3881. Արխիվացված օրիգինալից 2020 թ․ հոկտեմբերի 26-ին. Վերցված է 2015 թ․ օգոստոսի 28-ին.
  18. Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Matthew; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma (2021). «On the Opportunities and Risks of Foundation Models». arXiv:2108.07258 [cs.LG].
  19. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda (2020). «Language Models are Few-Shot Learners». arXiv:2005.14165 [cs.CL].
  20. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (2020 թ․ դեկտեմբեր). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (eds.). «Language Models are Few-Shot Learners» (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901. arXiv:2005.14165. doi:10.1145/3582269.3615599. Արխիվացված (PDF) օրիգինալից 2023-11-17-ին. Վերցված է 2023-03-14-ին.
  21. Fathallah, Nadeen; Das, Arunav; De Giorgis, Stefano; Poltronieri, Andrea; Haase, Peter; Kovriguina, Liubov (2024-05-26). NeOn-GPT: A Large Language Model-Powered Pipeline for Ontology Learning (PDF). Extended Semantic Web Conference 2024. Hersonissos, Greece.
  22. Manning, Christopher D. (2022). «Human Language Understanding & Reasoning». Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870. Արխիվացված օրիգինալից 2023-11-17-ին. Վերցված է 2023-03-09-ին.
  23. Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). «Scaling Laws for Neural Language Models». arXiv:2001.08361 [cs.LG].