Թեզաուրուս

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Թեզաուրուսը գիրք է, որտեղ թվարկված են ըստ իմաստային նմանության խմբավորված բառերի ցանկեր (կարող է պարունակել ինչպես հոմանիշներ այնպես էլ հականիշներ), ի հակադրություն բառարանի, որը պարունակում է սահմանումներ և արտասանություններ։ Աշխարհում հայտնի ամենախոշոր թեզաուրուսը Օքսֆորդի անգլերեն բառարանի Պատմական թեզաուրուսն է (Historical Thesaurus of the Oxford English Dictionary) [1], որը պարունակում է ավելի քան 920,000 բառ։

Եզրի ծագումը և օգտագործման պատմությունը[խմբագրել]

Մեր ժամանակներում «թեզաուրուս» կոչվող տեղեկատուի նման առաջին աշխատության հեղինակը հին դարերում եղել է Ֆիլոն Բիբլոսցին (կամ Հերեննիուս Ֆիլոնը, 64-141 մ.թ.) [2]։ Հայտնի է նաև թեզաուրուսի բնույթի 4-րդ դարում սանսկրիտով չափածո գրված Ամարակոշա (սանսկր.՝ अमरकोश) կամ «Ամարայի բառարանը» աշխատությունը [3] , որը սանսկրիտով գրված առաջին և ամենակարևոր բառարանն է եղել՝ կազմված ջայնիստական կամ բուդդայական իմաստուն Ամարա Սինքհայի կողմից, և պարունակել է ավելի քան 10 հազար բառ։ Ժամանակակից ոճի թեզաուրուսի առաջին օրինակն է Roget's Thesaurus[4], որը գրվել է 1805թ. Պիտեր Մարկ Ռոժեի կողմից և հրատարակվել է 1852թ.։

Թեև թեզաուրուսներում հիմնականում ընդգրկվում են հոմանիշներ, սակայն դրանք չպետք է դիտել որպես առանձին վերցված բառերի բոլոր հոմանիշները բովանդակող բառարաններ։ Թեզաուրուսի հոդվածներն այնպես են կազմված, որ դրանք հնարավորություն են տալիս ընթերցողին հոմանիշների շարքի մեջ ընտրել անհրաժեշտ ճիշտ բառը։ Ի տարբերություն բառարանի, թեզաուրուսի հոդվածները բառերի սահմանում կամ բացատրություն չեն տալիս։

Թեզաուրուս բառը ծագել է 16-րդ դարում նոր լատիներենից՝ իր հերթին ծագելով լատիներենից thesaurus, որը ծագել է հին հունարեն «θησαυρός» (thesauros) բառից, որը նշանակում է մեծ կարևորություն կամ արժեք ունեցող առարկաների հավաքածու։

Թեզաուրուսները տեղեկատվական տեխնոլոգիաներում[խմբագրել]

Հայտնի են տեղեկատվական գիտությունների, գիտական գրադարանների և տեղեկատվական տեխնոլոգիաների մասնագիտացված թեզաուրուսներ, որոնք նախատեսված են որպես տեղեկատուներ։ Դրանք յուրօրինակ վերահսկվող բառադարաններ են, որոնք օգտագործվում են ինդեքսավորման (indexing) և թեգավորման (tagging) համար։ Նման թեզաուրուսները կարող են օգտագործվել որպես առցանց օգտագործվող նյութերի ինդեքսավորման հիմքեր։ Օրինակ Կանադայի թանգարանների ազգային տվյալների շտեմարանի ինդեքսավորման համար օգտագործվում է Արվեստի և ճարտարապետության թեզաուրուսը (Art and Architecture Thesaurus), որը պատկանում է Կանադական մշակութային ժառանգության տեղեկատվական ցանցին (Canadian Heritage Information Network)[5] ։

Տեղեկատու թեզաուրուսները ՏՏ-ում[խմբագրել]

Որպես տեղեկատու ծառայող թեզաուրուսները պետք է այնպիսի կառուցվածք ունենան, որ հասկացությունների միջև եղած կապերը հստակ լինեն։ Արդյունքում դրանք ավելի բարդ են լինում, քան հասարակ վերահսկվող բառադարանների հասկացությունների միջև եղած կապերը, ինչպես օրինակ ստանդարտների կամ նորմատիվային բառարաններում և հոմանիշային շղթաներում (synonym rings) կամ սինսեթերում։ Եզրի յուրաքանչյուր իմաստային տարբերակ դրվում է իրեն բնորոշ ենթատեքստում՝ այդպիսով ընթերցողին թույլ տալով տեսնել տարբերակների միջև եղած իմաստային տարբերությունները, ասենք՝ «բյուրո» որպես գրասենյակ և «բյուրո» որպես կահույքի կտոր։ Ըստ միջազգային ստանդարտների նման թեզաուրուսները սովորաբար կազմակերպվում են ըստ թեմատիկ կամ իմաստային հիերարքիաների կամ աստիճանակարգերի։ Ի տարբերություն գրական թեզաուրուսների այս հատուկ մասնագիտացված թեզաուրուսները սովորաբար կենտրոնանում են միայն մեկ գիտական առարակայի կամ ոլորտի կամ ուսումնասիրության շուրջը։

Տեղեկատվական տեխնոլոգիաներում թեզաուրուսը ներկայացնում է սեմանտիկորեն օրթոգոնալ որոնման բանալիների տվյալների շտեմարան կամ ցանկ։ Արհեստական ինտելեկտի բնագավառում թեզաուրուսը երբեմն կարող է հղվել որպես օնթոլոգիա [6] ։

Տեղեկույթի վերականգնման կամ հետկանչի համար ծառայող թեզաուրուսները սովորաբար կառուցվում են տեղեկատվական մասնագետների կողմից և ունեն իրենց սեփական յուրօրինակ բառադարանը, որը սահմանում է տարբեր տեսակի եզրեր և իմաստային կապեր։

Թեզաուրուսների եզրաբանությունը[խմբագրել]

Տերմինները կամ եզրերը այն հիմնական իմաստաբանական միավորներն են, որոնք փոխանցում են հայեցակարգերի կամ գաղափարների իմաստը։ Դրանք սովորաբար մեկ բառից կազմված գոյականներն են, իսկ գոյականներն ամենահստակ խոսքի մասերն են։ Տարբեր լեզուներ ունեն քերականական և բառակազմության տարբեր կառուցվածքներ։ Մարդկային լեզուներն իրենց էությամբ կոնցեպտուալ են, ուստի բոլոր մարդկային լեզուներում բայերը կարելի է փոխակերպել գոյականների, օրինակ ինչպես հայերենում. «մաքրել»՝ «մաքրություն», «ջնջել»՝ «ջնջում», «վազել»՝ «վազք», և այլն։ Սակայն ածականներն ու մակբայները հազվադեպ են այնպիսի իմաստ պարունակում, որը կարելի լինել օգտագործել ինդեքսավորման մեջ։ Երբ որևէ եզր բազմիմաստ է, ավելացվում է «սահմանափակող ծանոթագրություն» (scope note)՝ եզրի օգտագործման համատեղելիությունը ապահովելու և եզրի մեկնաբանությանը ուղղություն տալու համար։ Ոչ բոլոր եզրերն ունեն սահմանափակող ծանոթագրության կարիք, բայց դրանց ներկայությունը շատ է օգնում թեզաուրուսը ճիշտ օգտագործելու և իմացության տվյալ ոլորտը ճիշտ ընկալելու համար [7]։

Թեզաուրուսների եզրային փոխհարաբերությունները[խմբագրել]

«Եզրային փոխհարաբերությունները» եզրերի միջև եղած կապերն են։ Այդ փոխհարաբերությունները կարող են լինել երեք տեսակի՝ ստորակարգային (հիերարքիկ), համարժեք (էկվիվալենտ) կամ կապակցող (ասոցիատիվ)։

  • «Ստորակարգային» փոխհարաբերություններն օգտագործվում են ավելի լայն օգտագործման սահմաններ ունեցող եզրերն ավելի նեղ օգտագործման սահմաններ ունեցող եզրերից առանձնացնելու համար։ Ավելի լայն օգտագործման սահմաններ ունեցող եզրերը (Broader Term/BT) կամ հիպերնիմները (hypernym) ավելի ընդհանուր օգտագործման եզրեր են, օրինակ. «սարքավորումը» ավելի ընդհանրացված եզր է, քան «համակարգիչները»։ Համապատասխանաբար, ավելի նեղ օգտագործման եզրերը (Narrower Term/NT) կամ հիպոնիմները (hyponym) ավելի որոշակի, առավել ճշգրիտ իմաստ ունեցող եզրեր են, օրինակ «թվային համակարգիչը» «համակարգչի» մասնակիացումն է։ Հիպերնիմներն ու հիպոնիմները փոխադարձաբար կապված եզրեր են։ Ավելի մեծ օգտագործման սահման ունեցող եզրը ունի նաև առնվազն մեկ-երկու ավելի նեղ օգտագործման եզրային իմաստ։ Հիպերնիմներն ու հիպոնիմները օգտագործվում են դասային փոխհարաբերությունները, ինչպես նաև մաս-ամբողջություն փոխհարաբերությունները ցույց տալու համար (մերոնիմներ (meronym) և հոլոնիմներ (holonym))։
  • «Համարժեք» փոխհարաբերություններն օգտագործվում են առաջին հերթին հոմանիշները մոտ-հոմանիշների հետ կապելու համար։ Օգտագործում է (USE) և օգտագործվում է որպես (Used For/UF) բնորոշիչները դրվում են թեզաուրուսի եզրերի կողքին, երբ որևէ տեխնիկական համարվող եզր կարող է օգտագործվել մեկ ուրիշ՝ պաշտոնապես որպես տեխնիկական եզր չհամարվող բառի փոխարեն, օրինակ «հաճախականություն» տեխնիկական եզրը կարող է օգտագործվում է որպես/(UF) բնորոշիչով կապ ունենալ «ձայնի բարձրություն» եզրի հետ։ Հակադարձորեն պաշտոնապես տեխնիկական եզր չճանաչված «ձայնի բարձրություն» եզրը օգտագործում/(USE) բնորոշիչով կարող է կապվել «հաճախականություն» եզրի հետ։ Պաշտոնապես չճանաչված եզրերը հաճախ կոչվում են մուտքային բառեր կամ ուղղորդիչ բառեր, որոնք տանում են դեպի պաշտոնապես ընդունված եզրերը, որոնց նաև անվանում են դեսկրիպտորներ կամ գերադասելի եզրեր։ Որպես այդպիսիք՝ նրանց ներկայությունը տեքստում կարող է օգտագործվել ինքնաշխատ գործող ինդեքսավորման համակարգչային ծրագրում, որպեսզի տվյալ տեքստի համար գերադասելի եզրը միշտ օգտագործվի որպես ինդեքսավորման եզր։
  • «Կապակցող» փոխհարաբերությունները օգտագործվում են երկու այնպիսի եզրեր կապակցելու համար, որոնց փոխհարաբերումը ո՛չ ստորակարգային է, ո՛չ համարժեք։ Այս փոխհարաբերությունը նկարագրվում է հարաբերող եզր/(Related Term/RT) բնորոշումով։ Եզրերի միջև ասոցիատիվ փոխհարաբերությունները թեզաուրուսներում ամենաբարդն են, քանի որ հարաբերող եզր տեսակի կապի չափազանց օգտագործումը կարող է կրճատել որոնումների կոնկրետությունը։ Օրինակ, եթե որևէ սովորական կամ տիպական օգտագործող ինչ-որ եզր է որոնում թեզաուրուսում, որն սկսվում է «A» տառով, արդյո՞ք նա կարող է անպայմանորեն հետաքրքրվել նաև «B» տառով սկսվող եզրերով։ Եթե պատասխանը «ոչ» է, ապա այստեղ ասոցիատիվ փոխհարաբերություն չի կարող օգտագործվել։

Գրական թեզաուրուսները[խմբագրել]

  • Thesaurus of English Words & Phrases (Պիտեր Մարկ Ռոժեի խմբագրությամբ); ISBN 0-06-272037-6
  • World Thesaurus (Ս. Լարդի խմբագրությամբ); ISBN 0-671-51983-2
  • Oxford American Desk Thesaurus (Ս. Լինդբերգի խմբագրությամբ); ISBN 0-19-512674-2
  • Random House Word Menu Սթիվեն Գլեյզիեր; ISBN 0-679-40030-3
  • Historical Thesaurus of English, (HTE)[1]

Մասնագիտացված տեղեկատու թեզաուրուսները[խմբագրել]

Ստանդարտներ[խմբագրել]

Ըստ 2005թ.ANSI/NISO Z39.19 ստնդարտի սահմանվում են ուղեցույցներ և ընդունվում որոշակի միջազգային պայմանավորվածություններ բազմալեզու վերահսկվող բառադարանների, այդ թվում նաև ցանկերի, սինոնիմային շղթաների, տաքսոնոմիաների և թեզաուրուսների ձևավորման, կառուցման, փորձարկման, պահպանման և կառավարման համար [8]

Բազնալեզու բառարանների համար կարող է կիրառվել ISO 5964 Guidelines for the establishment and development of multilingual thesauri/ «ISO 5964 Ուղեցույցներ բազմալեզու թեզաուրուսների ստեղծման և զարգացման համար» ստանդարտը։

Տես՝ թեզաուրուսների կառուցման և օգտագործման ձեռնարկ՝ Thesaurus Construction and Use։ a practical manual. Jean Aitchison, Allan Gilchrist and David Bawden. London and New York։ Europa Publications (2000).

Տես նաև[խմբագրել]

Հղումներ[խմբագրել]

  1. http://www.oup.com/online/ht/
  2. http://www.bautz.de/bbkl/p/Philo.shtml
  3. http://sanskritdocuments.org/doc_z_misc_amarakosha.html
  4. Roget, Peter Mark [1852] (1962, 1982), Lloyd, Susan M., ed., Roget's Thesaurus, Burnt Mill, Harlow, Essex: Longman Group Limited, ISBN 0 582 55635
  5. http://www.rcip-chin.gc.ca/index-eng.jsp
  6. http://tomgruber.org/writing/ontolingua-kaj-1993.pdf
  7. Thesaurus Construction and Use: a practical manual. Jean Aitchison, Allan Gilchrist and David Bawden. London and New York: Europa Publications (2000)
  8. - 2005 Guidelines for the Construction, Format and Management of Monolingual Controlled Vocabularies, ISBN 1-880124-65-3.

Գրականություն[խմբագրել]

  • Thesaurus Construction and Use։ a practical manual. Jean Aitchison, Allan Gilchrist and David Bawden. London and New York։ Europa Publications (2000).
  • Луков, Валерий Андреевич, Луков, Владимир Андреевич Тезаурусы։ Субъектная организация гуманитарного знания

Արտաքին հղումներ[խմբագրել]