Բանավոր խոսքի կորպուս

Վիքիպեդիայից՝ ազատ հանրագիտարանից

Խոսքի կորպուս (կամ խոսակցական կորպուս)՝ խոսքի աուդիո ֆայլերի և տեքստերի տառադարձումների շտեմարան։ Խոսքը ուսումնասիրող տեխնոլոգիաներում խոսքի կորպուսները, ի թիվս այլ նպատակների, օգտագործվում են ձայնային մոդելներ ստեղծելու համար (որոնք այնուհետև կարող են օգտագործվել խոսքի ճանաչման կամ խոսողի ճանաչման պրոցեսների համար)[1]։ Լեզվաբանության մեջ բանավոր խոսքի կորպուսները օգտագործվում են հնչյունաբանական, հաղորդակցական վերլուծության, բարբառագիտության և այլ ուղղություններով հետազոտություններ կատարելու համար։

Կորպուսը նման տվյալների բազաներից մեկն է (հոգն․ corpora, այն է շտեմարանային ցանց)։

Խոսքի Կորպուսները երկուսն են՝

1․ Ընթերցվող խոսքի վերծանում, որը ներառում է.

  • Գրքերի հատվածներ
  • Հեռարձակվող նորություններ
  • Բառացուցակներ
  • Թվերի հաջորդականություններ
    2․ Հանպատրաստից խոսք, որը ներառում է.
  • Երկխոսություն - երկու կամ ավելի մարդկանց միջև (ներառում է հանդիպումներ)
  • Պատմվածքներ - անձը ներկայացնում է որևէ պատմություն (այդպիսի կորպուսներից մեկը Buckeye Corpus- ն է)
  • Քարտեզ-առաջադրանքներ - Անձը քարտեզի հիման վրա երթուղին բացատրում է մյուսին.
  • Պայմանավորվածություն արտահայտող խոսք - Երկու մարդ փորձում են գտնել հանդիպման հարմար ժամանակ ՝ հիմնվելով անձնականն ժամանակացույցի վրա։

Բանավոր խոսքի կորպուսներին հատուկ տեսակ են ոչ բնիկների խոսքի շտեմարանները, որոնք արտացոլում են խոսք՝ օտար լեզվակրի հնչողությամբ։

Ծանոթագրություններ[խմբագրել | խմբագրել կոդը]

  1. Langslow, D.R. 2002 "Approaching bilingualism in corpus languages" in James Noel Adams, Mark Janse, Simon Swain (edd.) Bilingualism in Ancient Society: Language Contact and the Written Text Oxford: OUP