Jump to content

Տեքստի էմոցիաների վերլուծություն

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Տեքստի Էմոցիաների վերլուծություն անգլ.՝ Sentiment analysis, անգլ.՝ Opinion mining , մեթոդների դաս է համակարգչային լեզվաբանության մեջ, որը նախատեսված է բառապաշարի էմոցիոնալ երանգավորումների և հեղինակի էմոցիոնալ գնահատականի` ուղղված որևէ օբիեկտին ավտոմատ հայտաբերման համար։ Տեքստի էմոցիաների վերլուծությունը լայնորեն կիրառվում է հաճախորդի օնլայն հարթակում խոսքը ավտոմատ կերպով վերլուծելու համար։ Ինֆորմատիկայում տեքստի էմոցիաների վերլուծությունը համարվում է խոսքում առկա էմոցիաների անալիզ, որին կարող ենք հանդիպել հսկա քանակությամբ մեծ ինֆորմացիայի (big data) մեջ։ Այս երևույթը հայտնվել է 2000-ական թվականների սկբում և միանգամից մեծ ճանաչում գտել` շնորհիվ սոցիալական ցանցերում (մասնավորապես Twitter-ում) առկա հսկայական տվյալների բազայի։ Նրա հիմնական նպատակն անալիզի ենթարկել հսկա ծավալով ինֆորմացիան, հանել նրանում առկա տարբեր էմոցիաները և վերջում որոշակի վիճակագրություն[1] ներկայացնել։

Առաջադրանքներ

[խմբագրել | խմբագրել կոդը]

Հիմնական նպատակը տեքստի էմոցիաների վերլուծության հանդիսանում է տեքստում կարծիքի հայտաբերումը և նրա հատկությունների դուրս բերումը։ Թե ինչ հատկություններ են դրանք, կախված է դրված առաջադրանքից։ Օրինակ` ալանիզի նպատակը կարող է լինել հետազոտել տեքստի հեղինակի կարծիքը։ Կարծիքը[2] կարող է լինել երկու տեսակ[3].

Անհետևանքային կարծիք հանդիսանում է հեղինակի կարծիքը որևէ օբիեկտի մասին։ Պաշտոնական գրելաձևը անհետևանքային կարծիքի ունի հետևյալ տեսքը (e, f, op, h, t)[4], որտեղ

  • (entity, feature) — էմոցիայի օբիեկտն է e (հեղինակի արտահայտման էությունը) կամ նրա հատկությունները f (հատկանիշներ, օբիեկտի մասեր) ,
  • orientation ,polarity — էմոցիոնալ գնահատական (հեղինակի էմոցիոնալ դիրքը վերոնիշյալ թեմայի շուրջ),
  • holder — էմոցիայի առարկա (հեղինակը,որին պատկանում է տվյալ կարծիքը),
  • ժամանակի այն պահը time, երբ ասվել է այդ կարծիքը։

Էմոցիոնալ գնահատականի օրինակներ[5]։

  • դրական,
  • բացասական,
  • նեյտրալ,

Նեյտրալ կարծիքի դեպքում նշանակում է, որ տեքստը չի պարունակում որևիցե էմոցիոնալ[6] երանգավորում։ Կան նաև էմոցիոնալ այլ գնահատականներ։

  • Ես Փարիզում անցկացրեցի իմ ամենալավ արձակուրդները։
  • Ես ատում եմ կապույտ գույնը։

Դասակարգման տեսակները

[խմբագրել | խմբագրել կոդը]

Ժամանակակից տեքստի էմոցիաների վերլուծության մեջ էմոցիաների վերլուծման համար հաճախ օգտագործվում է միաչափ զգացմունքային տարածություններ։ Հայտնի են նաև բազմաչափ տարածությունները[7][8]։

Փաստաթղթի բևեռականությունը կարելի է որոշել երկուական համակարգով[9]։ Այս դեպքում էմոցիայի գնահատականը լինում է երկու տեսակ` դրական և բացասական։ Այս մոտեցման թերություններից մեկը այն է, որ փաստաթղթի բովանդակությունը միշտ չէ, որ բացասական կամ դրական է։

Դասակարգումը բազմաչափ համակարգում

[խմբագրել | խմբագրել կոդը]

Կարելի է փաստաթղթում առկա նյութը դասակարգել բազմաչափ համակարգում ևս, որն ընդունված է անել Pang[10] և Snyder [11] համակարգերում։ Snyder կատարեց հետազոտություն ռեստորանների մասին, որի արդյունքում ռեստորանները գնահատվում էին սննդի և մթնոլորտի համար հինգ բալլանոց համակարգով [11]։

Գնահատման համակարգեր

[խմբագրել | խմբագրել կոդը]

Դասակարգման ալյ տեսակ է համարվում գնահատման համակարգը, որտեղ կարծիքը արտահատվում է -10-ից 10 ընկած համակարգում (ամենաբացասականից մինչև ամենադրականը)։ Սկզբում այս մեթոդը կիրառվել է հատուկ գործիքների և ալգորիթմների օգնությամբ[12]։

Սուբիեկտիվություն և օբիեկտիվություն

[խմբագրել | խմբագրել կոդը]

Դասակարգման այլ եղանակ է սուբիեկտիվությունը և օբիեկտիվությունը։ Այն փաստաթղթում առկա նյութը բաժանում է երկու հատվածի սուբիեկտիվ հատված, օբիեկտիվ հատված։ Այս դասակարգման եղանակը շատ ավելի բարդ է քան մյուս դասակարգման եղանակները։ Այստեղ ուշադրություն է դարձվում ամեն մի խոսքին և արտահայտությանը։

Դասակարգման մոտեցումները

[խմբագրել | խմբագրել կոդը]

Համակարգիչը ավտոմատ կերպով անալիզի է ենթարկում փաստաթղթում առկա նյութը մեքենայական ուսուցման[13] տարրերի շնորհիվ, ինչպես օրինակ բառերի խորը վերլուծություն։ Ավելի բարդ մեթոդների շնորհիվ որոշվում է տեքստում առկա տրամադրությունը և նրանում առկա նպատակը։ Դրա համար օգտագործվում են բառերի միջև առկա քերականական հարաբերությունները[14]։

Բառերի միջև առկա քերականական հարաբերությունները ստացվել են խորը ուսումնասիրությունների շնորհիվ և նրանց կարելի է բաժանել երկու խմբի.

  • ձեռագիր
  • ավտոմատ տեքստի անալիզ

Բազմալեզու նյութերի ճանաչման համար օգտագործվում է WordNet-Affect[15]:

էմոցիոնալ գնահատական օրինակ
Էմոցիա (emotion)
տրամադրություն (mood)
Հատկություն (trait) Ֆիզիկական վիճակ (physical state)
Արարքներ (behaviour)
Զգացմունք (sensation)

Ծանոթագրություններ

[խմբագրել | խմբագրել կոդը]

Գրականություն

[խմբագրել | խմբագրել կոդը]

Արտաքին հղումներ

[խմբագրել | խմբագրել կոդը]