Տեքստի էմոցիաների վերլուծություն

Վիքիպեդիայից՝ ազատ հանրագիտարանից
Jump to navigation Jump to search

Տեքստի Էմոցիաների վերլուծություն անգլ.՝ Sentiment analysis, անգլ.՝ Opinion mining , մեթոդների դաս է համակարգչային լեզվաբանության մեջ, որը նախատեսված է բառապաշարի էմոցիոնալ երանգավորումների և հեղինակի էմոցիոնալ գնահատականի` ուղղված որևէ օբիեկտին ավտոմատ հայտաբերման համար: Տեքստի էմոցիաների վերլուծությունը լայնորեն կիրառվում է հաճախորդի օնլայն հարթակում խոսքը ավտոմատ կերպով վերլուծելու համար: Ինֆորմատիկայում տեքստի էմոցիաների վերլուծությունը համարվում է խոսքում առկա էմոցիաների անալիզ, որին կարող ենք հանդիպել հսկա քանակությամբ մեծ ինֆորմացիայի (big data) մեջ: Այս երևույթը հայտնվել է 2000-ական թվականների սկբում և միանգամից մեծ ճանաչում գտել` շնորհիվ սոցիալական ցանցերում (մասնավորապես Twitter-ում) առկա հսկայական տվյալների բազայի: Նրա հիմնական նպատակն անալիզի ենթարկել հսկա ծավալով ինֆորմացիան, հանել նրանում առկա տարբեր էմոցիաները և վերջում որոշակի վիճակագրություն[1] ներկայացնել:

Առաջադրանքներ[խմբագրել | խմբագրել կոդը]

Հիմնական նպատակը տեքստի էմոցիաների վերլուծության հանդիսանում է տեքստում կարծիքի հայտաբերումը և նրա հատկությունների դուրս բերումը: Թե ինչ հատկություններ են դրանք, կախված է դրված առաջադրանքից: Օրինակ` ալանիզի նպատակը կարող է լինել հետազոտել տեքստի հեղինակի կարծիքը: Կարծիքը[2] կարող է լինել երկու տեսակ[3].

Անհետևանքային կարծիք հանդիսանում է հեղինակի կարծիքը որևէ օբիեկտի մասին: Պաշտոնական գրելաձևը անհետևանքային կարծիքի ունի հետևյալ տեսքը (e, f, op, h, t)[4], որտեղ

  • (entity, feature) — էմոցիայի օբիեկտն է e (հեղինակի արտահայտման էությունը) կամ նրա հատկությունները f (հատկանիշներ, օբիեկտի մասեր) ,
  • orientation ,polarity — էմոցիոնալ գնահատական (հեղինակի էմոցիոնալ դիրքը վերոնիշյալ թեմայի շուրջ),
  • holder — էմոցիայի առարկա (հեղինակը,որին պատկանում է տվյալ կարծիքը),
  • ժամանակի այն պահը time, երբ ասվել է այդ կարծիքը:

Էմոցիոնալ գնահատականի օրինակներ[5]:

  • դրական,
  • բացասական,
  • նեյտրալ,

Նեյտրալ կարծիքի դեպքում նշանակում է, որ տեքստը չի պարունակում որևիցե էմոցիոնալ[6] երանգավորում: Կան նաև էմոցիոնալ այլ գնահատականներ:

Օրինակներ[խմբագրել | խմբագրել կոդը]

  • Ես Փարիզում անցկացրեցի իմ ամենալավ արձակուրդները:
  • Ես ատում եմ կապույտ գույնը:

Դասակարգման տեսակները[խմբագրել | խմբագրել կոդը]

Ժամանակակից տեքստի էմոցիաների վերլուծության մեջ էմոցիաների վերլուծման համար հաճախ օգտագործվում է միաչափ զգացմունքային տարածություններ: Հայտնի են նաև բազմաչափ տարածությունները[7][8]:

Դասակարգումը երկուական համակարգում[խմբագրել | խմբագրել կոդը]

Փաստաթղթի բևեռականությունը կարելի է որոշել երկուական համակարգով[9]: Այս դեպքում էմոցիայի գնահատականը լինում է երկու տեսակ` դրական և բացասական: Այս մոտեցման թերություններից մեկը այն է, որ փաստաթղթի բովանդակությունը միշտ չէ, որ բացասական կամ դրական է:

Դասակարգումը բազմաչափ համակարգում[խմբագրել | խմբագրել կոդը]

Կարելի է փաստաթղթում առկա նյութը դասակարգել բազմաչափ համակարգում ևս, որն ընդունված է անել Pang[10] և Snyder [11] համակարգերում: Snyder կատարեց հետազոտություն ռեստորանների մասին, որի արդյունքում ռեստորանները գնահատվում էին սննդի և մթնոլորտի համար հինգ բալլանոց համակարգով [11]:

Գնահատման համակարգեր[խմբագրել | խմբագրել կոդը]

Դասակարգման ալյ տեսակ է համարվում գնահատման համակարգը, որտեղ կարծիքը արտահատվում է -10-ից 10 ընկած համակարգում (ամենաբացասականից մինչև ամենադրականը): Սկզբում այս մեթոդը կիրառվել է հատուկ գործիքների և ալգորիթմների օգնությամբ[12]:

Սուբիեկտիվություն և օբիեկտիվություն[խմբագրել | խմբագրել կոդը]

Դասակարգման այլ եղանակ է սուբիեկտիվությունը և օբիեկտիվությունը: Այն փաստաթղթում առկա նյութը բաժանում է երկու հատվածի սուբիեկտիվ հատված, օբիեկտիվ հատված: Այս դասակարգման եղանակը շատ ավելի բարդ է քան մյուս դասակարգման եղանակները: Այստեղ ուշադրություն է դարձվում ամեն մի խոսքին և արտահայտությանը:

Դասակարգման մոտեցումները[խմբագրել | խմբագրել կոդը]

Համակարգիչը ավտոմատ կերպով անալիզի է ենթարկում փաստաթղթում առկա նյութը մեքենայական ուսուցման[13] տարրերի շնորհիվ, ինչպես օրինակ բառերի խորը վերլուծություն: Ավելի բարդ մեթոդների շնորհիվ որոշվում է տեքստում առկա տրամադրությունը և նրանում առկա նպատակը: Դրա համար օգտագործվում են բառերի միջև առկա քերականական հարաբերությունները[14]:

Բառերի միջև առկա քերականական հարաբերությունները ստացվել են խորը ուսումնասիրությունների շնորհիվ և նրանց կարելի է բաժանել երկու խմբի.

  • ձեռագիր
  • ավտոմատ տեքստի անալիզ

WordNet-Affect[խմբագրել | խմբագրել կոդը]

Բազմալեզու նյութերի ճանաչման համար օգտագործվում է WordNet-Affect[15]:


էմոցիոնալ գնահատական օրինակ
Էմոցիա (emotion)
տրամադրություն (mood)
Հատկություն (trait) Ֆիզիկական վիճակ (physical state)
Արարքներ (behaviour)
Զգացմունք (sensation)

Արտաքին հղումներ[խմբագրել | խմբագրել կոդը]


Գրականություն[խմբագրել | խմբագրել կոդը]

Տես նաև[խմբագրել | խմբագրել կոդը]

  • https://explorable.com/what-is-statistics
  • https://dictionary.cambridge.org/dictionary/english/opinion
  • Bing Liu, 2010, էջ 2
  • Bing Liu, 2010, էջ 5
  • Pang, Lee, 2008, էջ 16-17
  • https://www.ihhp.com/meaning-of-emotional-intelligence
  • Bollen,Mao,J.Zeng, 2010
  • Pang, Lee, 2008
  • https://www.techopedia.com/definition/6199/binary-number
  • Pang, Lee, 2005
  • 11,0 11,1 Snyder, Barzilay, 2007
  • Thelwall et al, 2010
  • https://searchenterpriseai.techtarget.com/definition/machine-learning-ML
  • Turney, 2002, էջ 2-3
  • Strapparava, 2004, էջ 1083