Մասնակից:MarieBeg/բրիտանականազգայինկորպուս

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Բրիտանական Ազգային Կորպուսը (ԲԱԿ) բազմաթիվ աղբյուրներից հավաքագրված անգլերեն գրավոր և բանավոր տեքստերի 100 միլիոն բառածավալով կորպուս է[1]: Այն ուսումնասիրում է 20-րդ դարի վերջի բրիտանական անգլերենն ըստ տարբեր ոճերի, որպեսզի ներկայացնի այդ ժամանակվա բրիտանական անգլերենի բանավոր ու գրավոր խոսքից գրառված նմուշներ:

Պատմություն[խմբագրել | խմբագրել կոդը]

Բրիտանիայի ազգային կորպուսի նախագիծը երեք հրատարակիչների համագործակցության արդյունք է (Օքսֆորդի համալսարանական լրագիրը՝ որպես գլխավոր համագործակից, Լոնգմանը ու Չեյբըրսը)՝ երկու համալսարանների (Օքսֆորդի համալսարան և Լանքասթերի համալսարան) և Բրիտանական գրադարանի[2] : Կորպուսի սկիզբը դրվել է 1991 թվականին Բրիտանիայի Ազգային Կորպուսի ասոցիացիայի ղեկավարության ներքո, իսկ նախագիծն ավարտին է հասցվել 1994 թվականին: 1994 թվականից ի վեր նոր տեքստերի որևէ ավելացում չի գրանցվել, սակայն ԲԱԿ-ը չնչին վերանայումներ իրականացրեց նախքան երկրորդ՝ «BNC World» (2001 թվական) և երրորդ խմբագրումը՝ «BNC XML Edition» (2007 թվական)[3]:

ԲԱԿ-ը հաշվողական լեզվաբանների գաղափարն էր, որոնց նպատակը համակարգչի կողմից վերլուծվող խոսքի կամ տեքստի արտահայտմամբ ժամանակակից, բնական լեզվի կորպուսի ստեղծումն էր: Այսպիսով, այն ի սկզբանե կազմված է եղել այնպես, որ հնարավոր դարձնի ավտոմատ որոնումներն ու կորպուսային լեզվաբանության մշակման գործընթացները: Գոյություն ունեցող այլ կորպուսներից տարբերակվելու հազարավոր ուղիներից մեկն այդժամ տվյալների անարգել տրամադրումն էր, ոչ միայն ակադեմիական ուսումնասիրությանն առնչվող տվյաների, այլև գովազդներում ու կրթության մեջ կիրառելի տվյալների[4]:

Կորպուսը սահմանափակվում էր բրիտանական անգլերենով և չէր ընդգրկում անգլերենի այլ տարբերակները: Սա մասամբ այն պատճառով,որ նախագծի ծախսերի զգալի մասը Բրիտանիայի Կառավարության կողմից էր ֆինանսավորվում, որն անառարկելիորեն հետաքրքրված էր իր իսկ լեզվի լեզվաբանական բազմազանության փաստագրման ֆինանսավորմամբ[4]: Իր նախատեսված աննախադեպ մասշտաբի պատճառով ԲԱԿ-ը կարիք ուներ առևտրային և ակադեմիական հաստատությունների ֆինանսական աջակցության: Աջակցության շնոհիվ ԲԱԿ-ի տվյալներն այնուհետև հասանելի էին առևտրային և ակադեմիական ուսումնասիրությունների համար[4]:

Ընդհանուր բնութագիր[խմբագրել | խմբագրել կոդը]

ԲԱԿ-ը միալեզվյան կորպուս է,քանզի այն գրառում է տեքստեր միմիայն բրիտանական անգլերենով, թեպետ երբեմն այլ լեզուներից էլ են բառեր և բառակապակցություններ հանդիպում: Այն համաժամանակյա կորպուս է, քանի որ միայն 20-րդ դարավերջի լեզվական կիրառումն է ներկայացված, և քանի որ ԲԱԿ-ը նախատեսված չէ բրիտանական անգլերենի պատմական զարգացումը գրառելու համար[3]: Ի սկզբանե նրանք, ովքեր ներգրավված էին տվյալների հավաքագրման մեջ, ձգտում էին ԲԱԿ-ը դարձնել բալանսավորված կորպուս, ուստի տեքստերն ընդգրկում էին տարբեր աղբյուներից[4]:

Կառուցածք և բովանդակություն[խմբագրել | խմբագրել կոդը]

ԲԱԿ-ի 90 %-ը գրավոր խոսքի կիրառման տեքստեր են, որոնք դուրս են բերվել տարածաշրջանային ու ազգային թերթերից, տարբեր ակադեմիական ոլորտներից հրատարակված հետազոտական ամսագրերից կամ պարբերականներից, գեղարվեստական կամ ոչ գեղարվեստական գրքերից, այլ հրատարակված և չհրատարակված նյութերից, ինչպիսիք են՝ թռուցիկներ, բրոշյուրներ, նամակներ, տարբեր ակադեմիական մակարդակի ուսանողների կողմից գրված էսսեներ, ելույթներ, սցենարներ ևայլ տարբեր տիպի տեքստեր[5]:

ԲԱԿ-ի մնացյալ 10 %-ը բանավոր խոսքի կիրառման նմուշներ են: Դրանք ներկայացված և գրառված են վերծանումների տեսքով: Բանավոր խոսքի կորպուսը բաղկացած է 2 մասից՝ առաջին մասը ներառում է բանավոր սպոնտան խոսքի վերծանում՝ տարբեր տարիքային խմբերի, սոցիալական դասերի և տարբեր շրջաններից կամավորների մասնակցությամբ: Այս զրույցները տեղի էին ունենում տարբեր իրավիճակներում և ներառում էին բիզնես կամ կառավարչական հանդիպումներից մինչև ռադիո հաղորդումներ և հեռախոսազանգեր<[5]: Այս զրույցների գրառման նպատակը ազգային լեզվի բանավոր խոսքի և դրա համատեքստային տարբերակների լեզվաբանական վերլուծությունն էր[6]։

Մյուս մասը ներառում է համատեքստային նմուշներ, ինչպիսիք են բացառիկ հանդիպումների ընթացքում կատարված ձայնագությունների վերծանումները։ Այն բոլոր ինքնատիպ ձայնագրությունները, որոնք նախատեսված էին ԲԱԿ-ում ներառվելու համար, պահպանված են Բրիտանական գրադարանի հնչյունային արխիվում։ Ձայնագրությունների մեծամասնությունը հասանելի են Օքսֆորդի հնչյունաբանական լաբորատորիայում։

Ենթակորպուսներ և պիտակավորում[խմբագրել | խմբագրել կոդը]

Երկու ենթակորպուսներ են թողարկվել (ԲԱԿ-ի տվյալների քաղվածքները)` «BNC Baby» և «BNC Sampler»։ Այս երկու ենթակորպուսները կարող են օնլայն կիրառվել ԲԱԿ-ի վեբ կայքի միջոցով[7]։ «BNC Baby»-ն բաղկացած է նմուշների 4 խմբից, որոնցից յուրաքանչյուրը ներառում է ԲԱԿ-ում պիտակավորված մեկ միլիոն բառ։ Յուրաքանչյուր նմուշային խմբի բառերը հապատասխանում են հատուկ ոճական պիտակի։ Մեկ նմուշային խումբը բաղկացած է բանավոր խոսքի օրինակներից, իսկ մնացած 3 նմուշային խմբերը ներառում են գրավոր խոսքի տեքստեր` ակադեմիական գրություն, գեղարվեստական գրականություն և թերթեր համապատասխանաբար[8]։ Ամենավերջին (երրորդ) խմբագրությունը թողարկվել և ներկայացվել է «XML» ֆորմատով[9]։ «BNC Sampler»-ը երկու մասից բաղկացած ենթակորպուս է, այն ներառում է մեկ միլիոն բառից բաղկացած գրավոր ու բանավոր խոսքի տվյալներ։ «BNC Sampler»-ն ի սկզբանե կիրառվել է մի նախագծում,որը ձգտում էր բարելավվել ԲԱԿ-ի պիտակավորման գործընթացը, ինչն ի վերջո հանգեցրեց «BNC World»-ի խմբագրմանը։ Նախագծի շրջանակներում «BNC Sampler»-ը բարելավվել է աճող փորձառության ու հմտության շնորհիվ, ինչի արդյունքում պիտակավորումը ներկայիս ձևն է ստացել[10]:

ԲԱԿ կորպուսը պիտակավորվել է քերականական տեղեկատվության համար (խոսքի մասեր)։ Պիտակավորման համակարգը` «CLAWS» անվամբ, որոշակի փոփոխությունների ենթարկվեց, ինչի արդյունքում ԲԱԿ-ը պիտակավորելու նպատակով ստեղծվեց «CLAWS4» համակարգը։ «CLAWS1»-ի հիմքում թաքնված էր «MARKOV»-ի մոդելը,և երբ դա կիրառվում է ավտոմատացված պիտակավորման ժամանակ, կարող է հաջողությամբ պիտակավորել յուրաքանչյուր վերլուծված տեքստի 96-97%-ը։ «CLAWS1»-ը փոխարինվեց «CLAWS2»-ով, որում հեռացվեց ձեռքով տեքստը ավտոմատ պիտակավորելու հնարավորությունը։ Ամենավերջին թարմացումը ` «CLAWS4»-ը, փոփոխություններ է ներառում, ինչպիսիք են բառիմաստի հստակության ավելի ճկուն հնարավորությունն ու տարբեր տիպի ուղղագրական տեքստերի, լեզվի ծրագրավորման հնարավորություննները։ Այնուհետև վերափոխումները վերաբերում էին ավտոմատ պիտակավորման մեջ բազմաթիվ հաջողություններ գրանցելուն ու ձեռքով աշխատանքի նվազեցմանը` միևնույն ժամանակ որոշակի ծրագրերի կիրառմամբ պահպանելով արդյունավետությունը[2][11]։ Հետևաբար, «Template Tagger» անվամբ նոր ծրագիր ներկայացվեց՝ ճշտումներ կատարելու գործառույթով։ Բազմիմաստություն ցույց տվող պիտակներն ավելի ուշ են ավելացվել։ Ձեռքով պիտակավորումը դեռևս անհրաժեշտ է, քանզի «CLAWS4»-ը չի վերծանում օտար բառերը[12][13]։

Տեքստի կոդավորում և հասանելիություն[խմբագրել | խմբագրել կոդը]

Կորպուսը գործում է Տեքստի կոդավորման հրահանգներով և ներառում է լեզվաբանական ամբողջական ծանոթագրություն և համատեքստային տեղեկատվություն[14]։ «CLAWS4»-ի խոսքիմասային պիտակի թույլտվությունը կարող է գնվել պիտակիչը կիրառելու նպատակով[15]։ Պիտակավորման այլընտրանքային ծառայություն է առաջարկում Լանքասթերի համալսարանը[16]։ ԲԱԿ-ն ինքնին կարող է պատվիրվել կա՛մ անհատական, կա՛մ որևէ հաստատության թույլտվությամբ։ Հասանելի խմբագրումը ԲԱԿ «XML» խմբագրումն է, որը ներկայացվում է «XAIRA» որոնողական համակարգի ծրագրով։ Պատվերն իրականացվում է ԲԱԿ-ի վեբ կայքի միջոցով[17]։ Օնլայն կորպուսային մենեջերը` «BNCweb»-ը, փոփոխության է ենթարկվել «BNC XML»-ի խմբագրման համար։ Ինտերֆեյսն այնպես է ձևավորված, որպեսզի դյուրին լինի կիրառումը, իսկ ահա ծրագիրն առաջարկում է կորպուսային վերլուծության վերաբերյալ հարց տալու և գործառույթների հնարավորություն։ Օգտվողները կարող են վերհանել տվյալները որոնումների ու վերլուծությունների արդյունքում[18]։

Մուտքի հասանելիություն[խմբագրել | խմբագրել կոդը]

ԲԱԿ-ն իր չափի առաջին տեքստային կորպուսն էր, որը լայնորեն հասանելի դարձավ: Սա կարող է պայմանավորված լինել պայմանագրի ստանդարտ ձևերով՝ մի կողմից իրավատերերի ու ասոցիացիայի միջև, իսկ մյուս կողմից կորպուսից օգտվողների ու Ասոցիացիայի միջև: Մտավոր սեփականության իրավունքի սեփականատերերին որոնում էին ստանդարտ թույլտվությամբ պայմանագրի համար, ներառյալ` իրենց նյութերը կորպուսում անվճար ներմուծելու հոժարակամությունը: Այս պայմանավորվածությունը գուցե հեշտացվել է գաղափարի ինքնատիպության և ծրագրի հետ կապված կարևորության շնորհիվ: Այնուամենայնիվ, աջակիցների ինքնությունը ծածուկ պահելը մարտահրավեր էր,քանի որ խրթին էր նրանց նշանակալի աշխատանքի մասին լռելը: Աջակիցների ինքնության վերաբերյալ որևէ ակնարկ միանգամից հեռացվում էր: Քննարկվում էր աջակցի ինքնությունը կեղծ անվամբ փոխարինելու այլընտրանքային լուծումը, ինչն իրագործելի չհամարվեց[6]:

Բացի այդ, աջակիցներին ավելի վաղ հորդորում էին միայն ներառել իրենց խոսքի վերծանումները և ոչ թե խոսքն ինքնին: Չնայած սկզբնական աջակիցներից կրկին թույլտվություն էին խնդրում, այնուամենայնիվ, անանունացման գործընթացում հաջողության չհասնելը նշանակում էր, որ դժվար կլիներ սկզբնական աջակիցներից նյութ փնտրել: Միաժամանակ, երկու գործոն նպաստեց, որ իրավատերերը չէին կամենում նվիրաբերել իրենց նյութերը. ամբողջական տեքստերը պետք է բացառվեին, և նրանց համար որևէ դրդապատճառ չկար կորպուսի կիրառմամբ տեղեկություն տարածելու, մանավանդ երբ կորպուսը գործում է ոչ առևտրային հիմունքներով[6]:

Խնդիրներ ու սահմանափակումներ[խմբագրել | խմբագրել կոդը]

Կատեգորիաներ[խմբագրել | խմբագրել կոդը]

Մինչ 2001 թվականը ԲԱԿ-ը դեռ չուներ գրավոր տեքստերի տեքստային դասակարգում և ոչ էլ բանավոր տեքստերի, բացառությամբ ըստ համատեքստի՝ ժողովրդագրական կամ սոցիալ-տնտեսական դասերը: Օրինակ, ԲԱԿ-ում ընդգրկված էին բազմաթիվ գրականական տեքստեր (վեպեր, կարճ պատմվածքներ, բանաստեղծություններ և թատերային սցենարներ), բայց այդպիսի ներառումները համարվեցին անօգուտ, քանի որ հետազոտողները չէին կարողանում հեշտությամբ վերադառնալ ենթատեսակներ, որոնց վրա ցանկանում էին աշխատել (օր., պոեզիա): Քանի որ այս մետատվյալները բաց էին թողնված ֆայլերի վերնագրերում և ԲԱԿ-ի բոլոր փաստաթղթերում, ոչ մի կերպ հնարավոր չէր իմանալ, թե արդյոք «գրականական» տեքստը իրականում վերցվել է վեպից, կարճ պատմվածքից, թատերական սցենարից, թե բանաստեղծությունների հավաքածուից, եթե վերնագիրը չէր ներառում այնպիսի բառեր, ինչպիսիք են «վեպ»-ը կամ «պոեմ»-ը[19]:

2002-ին նոր տարբերակի `«BNC World Edition»-ի ներդրմամբ, ԲԱԿ-ը փորձեց զբաղվել այս խնդրով: Դոմեյնից բացի, այժմ 70 կարգեր կան ինչպես խոսակցական, այնպես էլ գրավոր տվյալների համար, ուստի հետազոտողներն այժմ կարող են գտնել տեքստերն ըստ տեսակի: Այնուամենայնիվ, նույնիսկ այս փոփոխություններից հետո իրագործումը դեռ անավարտ է, քանի որ տեքստի պատկանումը որևէ տեսակի կամ ենթատեսակի հեշտ չէ: Բանավոր խոսքի տվյալների դասակարգումը պակաս պարզ է, քան գրավոր տվյալներինը, քանի որ թեմաների և օգտագործման մեջ ավելի շատ բազմազանություն է նկատվում: Բացի այդ, միշտ կլինեն յուրաքանչյուր ենթատեսակի տեսակների հնարավոր ենթախմբեր: Թե ինչպես են ենթատեսակները բաժանվում, նախապես որոշվում է ձախողումից, բայց հետազոտողները հնարավորություն ունեն բաժիններն ավելի ընդհանուր կամ մասնակի դարձնել՝ ըստ իրենց տեսակների: Դասակարգումը նույնպես խնդիր է, քանի որ որոշ տեքստեր, չնայած համարվում են, որ պատկանում են միջգիտակարգային տեսակին, ինչպիսին է լեզվաբանությունը, ներկայացված է բովանդակությամբ, որը դասակարգվում է կամ արվեստի, կամ գիտության կարգերին՝ իրենց բովանդակության բնույթից ելնելով[20]:

Դասակարգում և խոսույթ[խմբագրել | խմբագրել կոդը]

Որոշ տեքստեր դասակարգվել են սխալ կարգի տակ, սովորաբար շփոթեցնող վերնագրի պատճառով: Օգտվողները չեն կարող միշտ վստահել ֆայլերի վերնագրերին՝ որպես դրանց իրական բովանդակության ցուցիչներ. Օրինակ՝ շատ տեքստեր, որոնց վերնագրում կա «դասախոսություն» բառը, իրականում դասարանային քննարկումներ են կամ ուսուցողական սեմինարներ, որոնցում ներգրավված է մարդկանց շատ փոքր խումբ, կամ հայտնի դասախոսություններ են (հասցեագրված ընդհանուր լսարանին, այլ ոչ թե բուհի ուսանողներին)[19]: Պատճառներից մեկն այն է, որ տեսակի և ենթատեսակի պիտակները կարող են վերագրվել կատեգորիայի տեքստերի մեծամասնությանը: Տեսակների մեջ կան ենթատեսակներ, և յուրաքանչյուր տեքստի համար բովանդակությունը կարող է տարբերվել և կարող է ընդգրկել բազմաթիվ ենթատեսակներ: Բացի այդ, արտադրական ճնշումները, զուգորդված անբավարար տեղեկատվությամբ, հանգեցրին հապճեպ որոշումների, ինչի արդյունքում գրառումներում նկատվում էին անճշտություն և անհամապատասխանություն[20]: Բացի այդ, արտադրական ճնշումները, զուգորդված անբավարար տեղեկատվությամբ, հանգեցրին հապճեպ որոշումների, ինչի արդյունքում գրառումներում նկատվում էին անճշտություն և անհամապատասխանություն[6]:

Գրավոր ու բանավոր խոսքի տեքստերի հարաբերությունը ԲԱԿ-ում 10:1 է, ինչը խոսակցական նյութերը պակաս ներկայանալի է դարձնում: Դա պայմանավորված է նրանով, որ առօրյա խոսքում հանդիպող մեկ միլիոն բառի հավաքագրման և վերծանման դեպքերն առնվազն 10 անգամ ավելին են, քան թերթի տեքստում ևս մեկ միլիոն բառ ավելացնելու դեպքերը: Որոշ լեզվաբաններ պնդում են, որ անհամաչափություն է դիտարկելի, քանի որ բանավոր ու գրավոր խոսքը հավասարապես կարևոր են լեզվում[6]: ԲԱԿ-ն իդեալական չէ բանավոր խոսքի խոսույթային առանձնահատկությունների ուսումնասիրման համար, քանի որ դրա վերծանումների մեծ մասը ուղղագրական է: Բանավոր խոսքի ոչ լեզվական առանձնահատկությունները միայն մասամբ են նշված[21]:

Սահմանափակումներ և անհամապատասխանություններ[խմբագրել | խմբագրել կոդը]

Չնայած բառային տեղեկության գերազանց աղբյուր լինելուն՝ ԲԱԿ-ը միայն կարող է կիրառվել քերականական կաղապարների սահմանափակ խումբ ուսումնասիրելու համար, մասնավորապես այնպիսի խմբեր, որոնք ունեն տարբերակիչ բառային կապակցություններ: Թեպետ բավական հեշտ է գտնել «վայելել» բառի բոլոր կիրառումները և դրանք դասակարգել ըստ հետևյալ բառի խոսքիմասային կարգի, լրացուցիչ աշխատանք է պահանջվում՝ գտնելու գերունդից հետո բայերի բոլոր դեպքերը, քանի որ ԲԱԿ-ի «SARA» ինդեքսը չի պարունակում խոսքիմասային կարգեր, ինչպիսիք են `«բոլոր բայերը» կամ «բոլոր բայերի -ing ձևերը»[21]:

Որոշ բառակապակցություններ նույնպես երկիմաստ են հարցումների մեջ կիրառվելուհամար. Սահմանափակող հարաբերական նախադասությունների ցանկացած որոնում օգտվողին կտրամադրի անհամապատասխան տվյալներ՝ հաշվի առնելով wh-ով դերանունների այլ գործածությունների քանակը և այդ դերանունների քանակը լեզվում (ինչպես նաև հարաբերական նախադասությունների նույնացման անհնարինությունը դերանվան բացակայության դեպքում, ինչպես օրինակ,՝ «the man I saw» ): Հատուկ իմաստաբանական և գործաբանական կատեգորիաները (կասկած, ճանաչողություն, տարաձայնություններ, կրճատումներ և այլն) դժվար են նույնացվում միևնույն պատճառով: Սա նշանակում է, որ չնայած կարելի է համեմատել տղամարդու և կնոջ խոսքը, բայց չենք կարող համեմատել կանանց և տղամարդկանց հասցեագրված խոսքը[21]:

ԲԱԿ-ի՝ որպես մեծ, բազմաշերտ կորպուսի բնույթն այն անպատեհ է դարձնում առանձնահատուկ տեքստի կամ տեսակների ուսումնասիրությունը, քանի որ հնարավոր է, որ դրանցից որևէ մեկը սխալ ներկայացված լինի և կարող է անճանաչելի լինի կոդավորման պատճառով: Օրինակ, ԲԱԿ-ում շատ քիչ բիզնես նամակներ և ծառայական հանդիպումներ կան, և նրանք, ովքեր ցանկանում են ուսումնասիրել իրենց պայմանագրերը, ավելի լավ կլինի կազմեն փոքր կորպուս, որում ներառված կլինեն միայն այդ տեսակին պատկանող տեքստերը[21]:

Կիրառման ոլորտներ[խմբագրել | խմբագրել կոդը]

Անգլերեն լեզվի ուսուցում[խմբագրել | խմբագրել կոդը]

Գոյություն ունեն երկու ընդհանուր ձև, որոնցով կորպուսային նյութը կարող է կիրառվել լեզվի ուսուցման մեջ[21]:

Նախևառաջ, հրատարակիչներն ու հետազոտողները կարող էին օգտագործել կորպուսի նմուշները լեզու սովորելու, հղումներ, ուսումնական պլաններ և դրան վերաբերող այլ գործիքներ կամ նյութեր ստեղծելու համար: Օրինակ, ԲԱԿ-ը մի խումբ ճապոնացի հետազոտողների կողմից օգտագործվել է որպես գործիք անգլերենի ուսուցման կայքի ստեղծման համար. անգլերենը հատուկ նպատակներով սովորողների համար ստեղծված ուսուցողական վեբ կայք[22]: Կայքը հնարավորություն ընձեռեց անգլալեզու սովորողներին ներբեռնել հաճախ լսվող և կիրառվող նախադասությունների օրինաչափությունները, այնուհետև այս նախադասությունների օրինաչափությունների հիման վրա սկսել կիրառել անգլերենը: ԲԱԿ-ը ծառայում էր որպես աղբյուր, որից դուրս էին բերվում հաճախ օգտագործվող արտահայտությունները: Այս կայքն օգտագործելիս օգտվողներն այսպիսով ապավինում էին ԲԱԿ-ի տեղեկատու նմուշներին՝ նրանց անգլերեն լեզվի ուսուցման ընթացքում ուղղորդելու համար: Լեզվի ուսուցումը հեշտացնող նյութերի ստեղծումը սովորաբար ներառում է շատ մեծ կորպուսների կիրառում (համեմատելի ԲԱԿ-ի չափի հետ), ինչպես նաև ժամանակակից ծրագրերի և տեխնոլոգիայի օգտագործում: Հաշվողական լեզվաբանության ոլորտում մեծ քանակությամբ գումար, ժամանակ և փորձ է ներդրվում լեզվի ուսուցմանը առնչվող նյութերի մշակման համար[21]:

Բացի այդ, կորպուսի վերլուծությունը կարող է ուղղակիորեն կիրառվել լեզվի դասավանդման և ձեռքբերման ոլորտում: Այս մեթոդով լեզու սովորողներին հնարավորություն է տրվում կորպուսից դասակարգել լեզվական տվյալները և հետագայում նրանց դասակարգումից եզրակացություններ կատարել ուսումնասիրող լեզվի օրինաչափությունների և առանձնահատկությունների վերաբերյալ: Այս մեթոդը ենթադրում է ավելի մեծ աշխատանք լեզուն ուսումնասիրողի մոտ և Թիմ Ջոնսի կողմից անվանվում է որպես «տվյալների վրա հիմնված ուսուցում»: Կորպուսային տվյալները, որոնք կիրառվում են տվյալների հիման վրա ուսուցման համար, համեմատաբար ավելի քիչ են, և, հետևաբար, ուսումնասիրվող լեզվի վերաբերյալ արված ընդհանրացումները կարող են լինել սահմանափակ արժեքի[21]: Ընդհանուր առմամբ, ԲԱԿ-ը կիրառելի է որպես հղումային աղբյուր՝ տեքստի վերարտադրման և ընկալման նպատակներով: ԲԱԿ-ը կարող է օգտագործվել որպես հղումային աղբյուր տարբեր համատեքստերում առանձին բառերի գործածությունն ուսումնասիրելիս, որպեսզի սովորողները ծանոթանան համապատասխան համատեքստերում որոշակի բառերի գործածության տարբեր ձևերին[21]: Լեզվին առնչվող տեղեկությունից բացի, հանրագիտարանային տեղեկատվությունը նույնպես հանդիպում է ԲԱԿ-ում: ԲԱԿ-ի տվյալներն ուսումնասիրողներին ներկայացվում են նաև բրիտանական մշակութային առանձնահատկությունները և կարծրատիպերը[21]:

Երկլեզու բառարաններ, փորձարկումներ և գնահատում[խմբագրել | խմբագրել կոդը]

ԲԱԿ-ն ավելի քան 12,000 բառերի և արտահայտությունների աղբյուր էր, որոնք օգտագործվել են 2012 թվականին Հնդկաստանում մի շարք երկլեզու բառարանների վերարտադրման համար` 22 տեղական լեզուներ թարգմանելով անգլերեն: Սա մաս էր կազմում ավելի մեծ շարժման՝ կրթության կատարելագործման, Հնդկաստանի ազգային լեզուների պահպանման և թարգմանչական աշխատանքի զարգացման համար[23]: ԲԱԿ-ի մեծ մասը լայնածավալ ռեսուրս է ապահովում, որով կարելի է փորձարկել ծրագրերը[24] : Այն օգտագործվել է որպես փորձարկման վայր «Տեքստային Կոդավորման Նախաձեռնության» (ՏԿՆ) ուղեցույցների համար: ԲԱԿ-ը օգտագործվել է նաև 20 միլիոն բառ տրամադրելու համար, որպեսզի գնահատեն «Senseval» նախաձեռնության ու իմաստի հաշվարկային վերլուծության համար անգլերենի ենթակարգայնացման ձեռքբերման համակարգերը[25]:

Ուսումնասիրություն[խմբագրել | խմբագրել կոդը]

Կոլոկացիաները Բրիտանական ազգային կորպուսում[խմբագրել | խմբագրել կոդը]

Հոֆմենն ու Լեմենը (2000 թվական) ուսումնասիրել են բանախոսների` կոլոկացիաների իրենց մեծ պաշարները շահարկելու ունակության հիմքում ընկած մեխանիզմները: Կոլոկացիաները պատրաստ են օգտագործման և կարող են հեշտությամբ ընդլայնվել քերականորեն կամ շարահյուսորեն` հարմարվելով ներկայիս խոսքի իրավիճակին: Ոչ հաճախ հանդիպող բառակապակցությունները դուրս են բերվել ԲԱԿ-ից՝ դրա վերաբերյալ ավելի խորը պատկերացում կազմելու համար[26]:

Տղամարդու և կնոջ կոլոկացիոն վարք[խմբագրել | խմբագրել կոդը]

Փիրսը (2008 թվական) ուսումնասիրեց տղամարդկանց և կանանց վարքերն այս կորպուսում` օգտագործելով «Sketch Engine»-ը: Կորպուսի հարցման գործիքն օգտագործվել է «տղամարդ» և «կին» գոյականական բառահիմքերի քերականական վարքն ուսումնասիրելու համար (այսինքն՝ «տղամարդ» / «տղամարդիկ» և «կին» / «կանայք» գոյականները)[27]:

Ասույթներ. Կորպուսային ուսումնասիրություն[խմբագրել | խմբագրել կոդը]

Ֆերնանդեսը և Գինցբուրգը (2002 թվական) ԲԱԿ-ի կիրառմամբ ուսումնասիրեցին երկխոսության ասույթները[28]:

Կորպուսի վրա հիմնված ակադեմիական նպատակներով անգլերեն իդասընթաց «NNS» դոկտորանտ ուսանողների համար[խմբագրել | խմբագրել կոդը]

Լին ու Սուեյլզը (2006 թվական) ԱՄՆ-ի Միչիգանի համալսարանի Անգլերեն լեզվի ինստիտուտի դոկտորանտ ուսանողների համար նախագծեցին կորպուսում ամրագրված ակադեմիական նպատակներին ծառայող անգլերենի փորձարարական դասընթաց[29]:

Մասնակիցները որպես իրենց ուսումնասիրությունների հիմք օգտագործեցին երեք հիմնական կորպուսներ.՝ «Hyland's Research Article Corpus»-ը, «Michigan Corpus of Academic Spoken English (MICASE)»-ը և ակադեմիական տեքստեր ԲԱԿ-ից[29]:

Հետագա աշխատանքներ[խմբագրել | խմբագրել կոդը]

Ձևաբանական մշակում[խմբագրել | խմբագրել կոդը]

Որպես ձևաբանական մշակման ուղղությամբ կատարվող աշխատանքների մի մաս, որպես բնական լեզվի մշակման կարևորագույն հարթակ՝ ԲԱԿ-ի տվյալներն օգտագործվել են ստուգելու համար հաշվարկային գործիքների ճշգրտությունը, հուսալիությունը և արագությունը: Հաշվարկային գործիքները մշակվել էին այնպես, որ հեշտացնեն բրիտանական անգլերենում ձևաբանական ցուցիչների վերլուծությունն ու մշակումը[30]: Այդ գործիքները ներառում էին մի ծրագիր, որը հնարավորություն ընձեռեց բրիտանական անգլերենով բառափոխության վերրլուծության (հայտնի է որպես վերլուծիչ) և վերլուծիչից ստացված վերլուծության հիման վրա ձևաբանական նշումներից առաջացած ծրագիր: ԲԱԿ-ի տվյալները օգտագործվել են նաև բրիտանական անգլերենում ձևաբանական ցուցիչնների վերաբերյալ տեղեկության լայն պաշար ստեղծելու համար: Մասնավորապես, ԲԱԿ-ից դուրս է բերվել մոտ 1100 բառահիմք և կազմվել է ստուգաթերթիկ, որում ձևաբանական գեներատորից առաջ տեղ են գտել բայեր, որոնցում բաղաձայն իկրկնությունը ճշգրտորեն շեղվել է[30]: Քանի որ ԲԱԿ-ը զգալի ջանք է ցուցաբերում այսպիսի մեծ քանակությամբ տվյալներ հավաքել ու և հետագայում մշակելու համար, այն դարձել է ոլորտում ազդեցիկ նախահայրը և այն մոդելը կամ օրինակելի կորպուսը, ինչի վրա հիմնված էր հետագա կորպուսների զարգացումը[31]:

ԲԱԿ 2014[խմբագրել | խմբագրել կոդը]

2014 թվականի հուլիսին Քեմբրիջի համալսարանի լրագիրը և Հասարակական գիտությունների կորպուսային մոտեցումների կենտրոնը Լանքասթերի համալսարանում հայտարարեցին, որ նոր Բրիտանական ազգային կորպուսը՝ ԲԱԿ 2014-ը[32], ձևավորման փուլում է[33]: Երկու հաստատությունների միջև համագործակցության ծրագրի առաջին փուլը 2010-ականների սկզբից մինչև կեսերին բրիտանական անգլերենի նոր բանավոր խոսքի կորպուսի ձևավորումն էր[34]: 11.5 միլիոն բառից բաղկացած Բրիտանիայի Ազգային Խոսակցական Կորպուսը (2014 թվական) հանրությանը ներկայացվեց 2017 թվականի սեպտեմբերի 25-ին[35]: 2014 թվականի ԲԱԿ-ի 100 միլիոն բառածավալով գրավոր տեքստերի կորպուսը ներկայումս կազմման փուլում է և պլանավորվում է հանրության դատին հանձնվել 2018 թվականի աշնանը[36]:


Տես նաև[խմբագրել | խմբագրել կոդը]

Ծանոթագրություններ[խմբագրել | խմբագրել կոդը]

  1. Burnard, Lou; Aston, Guy (1998). The BNC handbook: exploring the British National Corpus. Edinburgh: Edinburgh University Press. էջ xiii. ISBN 0-7486-1055-3.
  2. 2,0 2,1 Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994). «Corpus-based research into language: in honour of Jan Aarts». In N. Oostdjik & P. Haan (ed.). The large-scale grammatical tagging of text: Experience with the British National Corpus. Netherlands: Rodopi Publishers. էջեր 47–63.
  3. 3,0 3,1 What is the BNC?. Retrieved 12 March 2012.
  4. 4,0 4,1 4,2 4,3 Leech, Geoffrey (1993). «100 million words of English». English Today. 9 (1): 9–15. doi:10.1017/S0266078400006854.
  5. 5,0 5,1 British National Corpus. Retrieved 12 March 2012.
  6. 6,0 6,1 6,2 6,3 6,4 Burnard, Lou (2002). «Where did we go wrong? A retrospective look at the British National Corpus» (PDF). Վերցված է 14 March 2012-ին.
  7. «BNC Products». Վերցված է 18 March 2012-ին.
  8. Burnard, Lou (2003). «Reference Guide for BNC-baby». Վերցված է 18 March 2012-ին.
  9. «New edition of BNC Baby available». Վերցված է 19 March 2012-ին.
  10. «BNC Sampler: XML edition» (PDF). 2008. Վերցված է 18 March 2012-ին.
  11. Leech, Geoffrey; Garside, Roger; Bryant, Michael (1994). «Claws4: The Tagging Of The British National Corpus». Paper given at COLING'94, Lancaster: UK. CiteSeerX 10.1.1.13.3622. {{cite journal}}: Cite journal requires |journal= (օգնություն)
  12. Leech, Geoffrey; Smith, Nicholas (2000). «The British National Corpus (Version 2) with Improved Word-class Tagging». UCREL, Lancaster University, UK. Վերցված է 17 March 2012-ին.
  13. Leech, Geoffrey; Smith, Nicholas (2000). «Automatic POS-Tagging of the Corpus». UCREL, Lancaster University, UK. Վերցված է 17 March 2012-ին.
  14. Burnard, Lou (1995). «Users Reference Guide for the British National Corpus» (PDF). Վերցված է 18 March 2012-ին.
  15. «Obtaining a license for the CLAWS tagger». UCREL, Lancaster University, UK. Վերցված է 17 March 2012-ին.
  16. «The CLAWS tagging service». UCREL, Lancaster University, UK. Վերցված է 17 March 2012-ին.
  17. «How to order». Վերցված է 17 March 2012-ին.
  18. Hoffmann, Sebastian; Evert, Stefan (2008). Corpus linguistics with BNCweb: a practical guide. Peter Lang. ISBN 978-3-631-56315-1.
  19. 19,0 19,1 Lee, David (2001). «GENRES, REGISTERS, TEXT TYPES, DOMAINS, AND STYLES» (PDF). 5 (3): 37–72. Վերցված է 15 March 2012-ին. {{cite journal}}: Cite journal requires |journal= (օգնություն)
  20. 20,0 20,1 Lee, David (2002). «NOTES TO ACCOMPANY THE BNC WORLD EDITION (BIBLIOGRAPHICAL) INDEX» (PDF). Արխիվացված է օրիգինալից (PDF) 2013-09-23-ին. Վերցված է 17 March 2012-ին.
  21. 21,0 21,1 21,2 21,3 21,4 21,5 21,6 21,7 21,8 Aston, Guy (1998). «Learning English with the British National Corpus». Paper given at 6th Jornada de Corpus, Barcelona: UPF. Վերցված է 16 March 2012-ին.
  22. Minn, Danny; Sano, Hiroshi; Ino, Marie; Nakamura, Takahiro (2005). «Using the BNC to create and develop educational materials and a website for learners of English» (PDF). ICAME Journal. 29: 99–113. Վերցված է 12 March 2012-ին.
  23. «Bilingual dictionaries to promote India's mother tongues». Times of Oman. 14 March 2012. Արխիվացված է օրիգինալից 2010-12-31-ին. Վերցված է 17 March 2012-ին.
  24. «What can I do with the BNC?». Վերցված է 18 March 2012-ին.
  25. Korhonen, Anna (2002). «EVALUATION RESOURCES for English Subcategorization Acquisition Systems». Արխիվացված է օրիգինալից 2012-12-13-ին. Վերցված է 18 March 2012-ին.
  26. Hoffman, Sebastian; Lehmann, Hans Martin (2000). «Collocational Evidence from the British National Corpus». In Kirk, John M. (ed.). Corpora Galore: Analyses and Techniques in Describing English. Amsterdam: Rodopi. ISBN 9789042004191.
  27. Pearce, Michael (Nov 2008). «Investigating the collocational behaviour of MAN and WOMAN in the BNC using Sketch Engine» (PDF). Corpora. 3 (1): 1–29. doi:10.3366/E174950320800004X. Արխիվացված է օրիգինալից (PDF) 2015-06-27-ին.
  28. Fernandez, Raquel; Jonathan Ginzburg (29 June 2002). «Non-sentential utterances: A corpus study» (PDF). Արխիվացված է օրիգինալից (PDF) 27 June 2015-ին. {{cite journal}}: Cite journal requires |journal= (օգնություն)
  29. 29,0 29,1 Lee, David; John Swales (2006). «A corpus-based EAP course for NNS doctoral students: Moving from available specialized corpora to self-compiled corpora». English for Specific Purposes. 25 (1): 56–75. doi:10.1016/j.esp.2005.02.010.
  30. 30,0 30,1 Minnen, Guido; Carroll, John; Pearce, Darren (2001). «Applied Morphological Processing of English» (PDF). Natural Language Engineering. 7 (3): 207–223. doi:10.1017/s1351324901002728.
  31. Čermák, František (2003). «Today's Corpus Linguistics: Some Open Questions». International Journal of Corpus Linguistics. 7 (2): 265–282. doi:10.1075/ijcl.7.2.06cer.
  32. «British National Corpus 2014».
  33. ESRC Centre for Corpus Approaches to Social Science (CASS) (28 July 2014). «Spoken BNC2014 project announcement». Վերցված է 2016-10-07-ին.
  34. "Centre for Corpus Approaches to Social Science". Retrieved 17 March 2015.
  35. «John Benjamins Publishing».
  36. «British National Corpus 2014».

Արտաքին հղումներ[խմբագրել | խմբագրել կոդը]