Մասնակից:Աննա Բեժանյան/Big data

Տվյալների մայնինգը կամ տվյալների հետազոտումը օրինաչափությունների հայտնաբերման գործընթացն է մեծ տվյալների ամբողջության մեջ, որը ներառում է մեքենայական ուսուցման, վիճակագրության և տվյալների բազայի համակարգերի մեթոդներ: Տվյալների հետազոտումը համակարգչային գիտության և վիճակագրության միջդիսցիպլինար ենթաճյուղ է, որի նպատակն է ՙՙխելացի՚՚ մեթոդներով տվյալների ամբողջությունից տեղեկատվության ստացումն ու վերափոխումը հասկանալի կառուցվածքի՝ հետագա օգտագործման համար: ^[1] ^[2] ^[3] ^[4] Տվյալների հետազոտումը «տվյալների բազայում գիտելիքների հայտնաբերման» գործընթացի կամ KDD- ի վերլուծության քայլն է: ^[5] Բացի վերլուծությունից, այն ներառում է նաև տվյալների բազայի և տվյալների կառավարման ասպեկտներ, տվյալների նախնական վերամշակում, մոդելի և եզրակացության նկատառումներ, հետաքրքրության չափումներ, բարդությունների նկատառումներ, կառուցվածքի հետագա վերամշակում, վիզուալացում և առցանց թարմացում:

Տվյալների հետազոտման նպատակը մեծ քանակությամբ տվյալներից օրինաչափությունների և տեղեկատվության դուրսբերումն է:^[6] Այն նաև կիրառվում է լայնածավալ տվյալների կամ տեղեկատվության մշակման տարբեր ձևերի ( հավաքում, արտահանում, պահում, վերլուծություն և վիճակագրություն), ինչպես նաև համակարգչային որոշումների աջակցման համակարգի կիրառման մեջ, ներառյալ արհեստական բանականության (օրինակ ՝ մեքենայական ուսուցում) և բիզնեսի ռազմավարության և տեխնոլոգիաների մեջ (business intelligence): «Տվյալների հետազոտում. մեքենայական ուսուցման գործիքներ և տեխնիկա Java-ով» ^[7] գիրքը, որն ընդգրկում է հիմնականում մեքենայական ուսուցման մասին նյութեր, սկզբնապես պետք է անվանվեր պարզապես «Գործնական մեքենայական ուսուցում», և տվյալների հետազոտում տերմինը ավելացվել է միայն մարկետինգային նպատակներով: ^[8]

Տվյալների հետազոտման իրական խնդիրը մեծ քանակությամբ տվյալների մասնակիորեն կամ ամբողջությամբ ավտոմատացված վերլուծություն է, որպեսզի գտնենք նախկինում անհայտ, հետաքրքիր օրինաչափություններ, ինչպիսիք են տվյալների խմբերը ( կլաստներերի վերլուծություն ), անսովոր գրանցումները ( անոմալիաների հայտնաբերում ) և կախվածությունը: Սա սովորաբար ներառում է տվյալների բազայի մեթոդներ, ինչպիսիք են տարածական ցուցանիշները: Այս նմուշները այնուհետև կարող են դիտվել որպես մուտքային տվյալների մի տեսակ ամփոփում և կարող են օգտագործվել հետագա վերլուծության կամ, օրինակ, մեքենայական ուսուցման և կանխատեսման վերլուծության մեջ: Օրինակ, տվյալների հետազոտության քայլը կարող է նույնականացնել բազմաթիվ խմբերի տվյալների մեջ, որոնք այնուհետև կարող են օգտագործվել որոշումների աջակցության համակարգով ավելի ճշգրիտ կանխատեսման արդյունքներ ստանալու համար: Տվյալների հավաքագրումը, տվյալների նախապատրաստումը, արդյունքների մեկնաբանումը և հաշվետվությունը չեն հանդիսանում տվյալների հետազոտման քայլի մաս, բայց պատկանում են ընդհանուր KDD գործընթացին՝ որպես լրացուցիչ քայլեր:

Տվյալների վերլուծության և տվյալների հետազոտման միջև տարբերությունն այն է, որ տվյալների վերլուծությունն օգտագործվում է տվյալների բազայում մոդելների և վարկածների փորձարկման համար, օրինակ՝ շուկայավարման արշավի արդյունավետությունը վերլուծելու համար՝ անկախ տվյալների քանակությունից: Տվյալների հետազոտումն իրականացվում է մեքենայական ուսուցման և վիճակագրական մոդելների միջոցով՝ մեծ ծավալի տվյալների թաքնված օրինաչափությունները բացահայտելու համար: ^[9]

Տտվյալների աղավաղում, տվյալների ֆիշինգ և տվյալների զննում տերմինները վերաբերում են տվյալների հետազոտման մեթոդների օգտագործմանը` ավելի մեծ թվով տվյալների ընտրանքներ կազմելու համար, որոնք կարող են շատ փոքր լինել վավերության վերաբերյալ հուսալի վիճակագրական եզրակացություններ կատարելու համար: Այնուամենայնիվ, այս մեթոդները, կարող են օգտագործվել նոր վարկածներ ստեղծելու համար՝ տվյալների ավելի մեծ քանակների ստուգման համար:

Էթիմոլոգիա[խմբագրել | խմբագրել կոդը]

1960-ական թվականներին վիճակագիրներն ու տնտեսագետները օգտագործում էին տվյալների ֆիշինգ կամ տվյալների աղավաղում տերմինները բնութագրելու համար տվյալների վերլուծությունը առանց առաջնային վարկածի, ինչը տվյալների վերլուծության վատ ձև էր համարվում: «Տվյալների հետազոտում» տերմինը օգտագործվել է նաև տնտեսագետ Մայքլ Լոուելի կողմից 1983-ին«Տնտեսագիտական ուսումնասիրությունների ակնարկ» ամսագրում տպագրված հոդվածում: ^[10] ^[11]

Տվյալների հետազոտում տերմինը ի հայտ է եկել 1990 թ.-ին: 1980-ականներին կարճ ժամանակով օգտագործվել է «տվյալների բազաների հետազոտում» արտահայտությունը, բայց, քանի որ այն ապրանքային նշան է ստացել Սան Դիեգոյի կենտրոնում գործող HNC ընկերության կողմից՝ հիմնելու իրենց տվյալների բազայի հետազոտման կայանը, ^[12] մասնագետները տերմինը վերանվանեցին տվյալների հետազոտում: Օգտագործվում են նաև այլ տերմիններ՝ տեղեկատվության հավաքում և պահպանում, տեղեկատվության բացահայտում և այլն: Գրեգորի Պիացեցկի-Շապիրոն առաջարկել է «գիտելիքներ տվյալների բազաների վերաբերյալ» տերմինը նույն թեմայով առաջին սեմինարի համար (KDD-1989), և այս տերմինը ավելի տարածված դարձավ AI և մեքենայական ուսուցման ոլորտներում: Ներկայումս, տվյալների հետազոտում տերմինը ավելի տարածված է բիզնեսի ոլորտներում: ^[13]

Ակադեմիական ոլորտում հետազոտությունները սկսվել են 1995 թվականից, երբ Մոնրեալում կայացավ տվյալների հետազոտման և գիտելիքների բացահայտման առաջին միջազգային համաժողովը ( KDD-95 ) ՝ AAAI- ի հովանավորությամբ: Այն համանախագահում էին Ուսամա Ֆայադը և Ռամասամի Ութուրուսամին: KDD միջազգային կոնֆերանսը դարձավ տվյալների հետազոտման առաջին խորհրդաժողովը, որին ներկացված հետազոտական փաստաթղթերից ընդունվել է 18%-ից քիչը: Data Mining and Knowledge Discovery ամսագիրը ոլորտի առաջնահերթ հետազոտական ամսագիր է:

Նախապատմություն[խմբագրել | խմբագրել կոդը]

Տվյալներից ընտրանքներ կազմելը դարեր շարունակ կատարվել է ձեռքով: Տվյալներում օրինաչափությունների հայտնաբերման սկզբնական մեթոդներից են Բայեսի թեորեմը (1700-ականներ) և ռեգրեսիայի վերլուծությունը (1800-ականներ): Համակարգչային տեխնոլոգիաների տարածումը փոփոխել են տվյալների հավաքագրման, պահպանման և մանիպուլյացիայի ձևերը: Տվյալների ծավալներն աճել են իրենց չափերով և բարդությամբ, ինչը տվյալների մշակման ավտոմատացման անհրաժեշտություն է առաջացրել, որի համար սկսել են օգտագործել նաև համակարգչային գիտության հայտնագործությունները, մասնավորապես՝ մեքենայական ուսուցման ոլորտում, ինչպիսիք են նեյրոնային ցանցերը, կլաստերի վերլուծությունը, գենետիկական ալգորիթմներ (1950-ականներ), որոշման ծառեր և որոշումների կանոններ (1960-ականներ) և օժանդակ վեկտորային մեքենաներ (1990-ականներ): Տվյալների հետազոտումը այս մեթոդների կիրառման միջոցով թաքնված բացահայտումն է: ^[14] Այն կապ է ստեղծում կիրառական վիճակագրության, արհեստական բանականության (որոնք սովորաբար ապահովում են մաթեմատիկական ֆոնը) և տվյալների բազաների կառավարման միջև` մշակելով այն եղանակները, որոնց միջոցով տվյալները պահպանվում և ինդեքսավորվում են տվյալների բազաներում սովորելու և հայտնագործման ալգորիթմներն առավել արդյունավետ իրականացնելու համար, ինչը թույլ է տալիս այդպիսի մեթոդները կիրառվել ավելի մեծ թվով տվյալների վրա:

Ընթացքը[խմբագրել | խմբագրել կոդը]

KDD գործընթացի հիմնական փուլերն են.

Ընտրություն
Նախնական վերամշակում
Վերափոխում
Տվյալների հետազոտում կամ մայնինգ
Մեկնաբանում/գնահատում: ^[5]

Գոյություն ունեն նաև այլ բաժանումներ, օրինակ՝ CRISP-DM, որը սահմանում է վեց փուլ.

Բիզնեսի ընկալում
Տվյալների ընկալում
Տվյալների նախապատրաստում
Մոդելավորում
Գնահատում
Տեղակայում

Կա նաև ավելի պարզեցված տարբերակը՝ (1) նախնական վերամշակում, (2) տվյալների հետազոտում և (3) արդյունքների վավերացումը:

2002, 2004, 2007 և 2014 թվականներին անցկացված հարցումները ցույց են տվել, որ CRISP-DM մեթոդաբանությունը ամենաշատ օգտագործվողն է: ^[15] Այս հարցումներում նշված տարբերակներից մեկը SEMMA- ն էր: Այնուամենայնիվ, CRISP-DM օգտագործողների թիվը 3-4 անգամ ավելի շատ է: Հետազոտողների մի քանի թիմեր հրապարակել են տվյալների հետազոտման գործընթացների մոդելների մասին ակնարկներ, ^[16] իսկ Ազևեդոն և Սանտոսը 2008 թ.-ին կատարել են CRISP-DM- ի և SEMMA- ի համեմատությունը:

Նախնական վերամշակում[խմբագրել | խմբագրել կոդը]

Նախքան տվյալների հետազոտման ալգորիթմների օգտագործումը անհրաժեշտ է հավաքել նպատակային օգտագործման տվյալներ: Քանի որ տվյալների հետազոտումը կարող է բացահայտել միայն տվյալներում առկա օրինաչափությունները, նպատակային օգտագործման տվյալները պետք է լինեն բավականաչափ մեծ, որպեսզի պարունակեն այդ օրինաչափությունները, և միևնույն ժամանակ հակիրճ, որպեսզի հետազոտումը կատարվի խելամիտ ժամկետներում: Տվյալների հիմնական աղբյուրը տվյալների պահեստն է: Տվյալների հետազոտումից առաջ դրանց նախամշակումը անհրաժեշտ է բազմափոփոխական տվյալների վերլուծության համար: Թիրախային տվյալներն այնուհետև մաքրվում են: Տվյալների մաքրումը հեռացնում է աղմուկ և/կամ բացակայող տվյալներ պարունակող դիտարկումները:

Տվյալների մայնինգ/հետազոտում[խմբագրել | խմբագրել կոդը]

Տվյալների հետազոտումը ներառում է վեց տիպի առաջադրանք. ^[5]

Անոմալիայի հայտնաբերում (հեռավորության / փոփոխության / շեղման հայտնաբերում) - Անսովոր տվյալների նույնականացում, որոնք կարող են հետաքրքիր լինել կամ տվյալների սխալներ, որոնք պահանջում են հետագա հետազոտություն:
Ասոցիացիայի կանոնների ուսուցում (կախվածության մոդելավորում) - փոփոխականների միջև փոխհարաբերությունների որոնում: Օրինակ, սուպերմարկետը կարող է հավաքել տվյալներ հաճախորդի գնման սովորությունների վերաբերյալ: Օգտագործելով ասոցիացիայի կանոնների ուսուցումը՝ սուպերմարկետը կարող է որոշել, թե որ ապրանքատեսակներն են հաճախ միասին ձեռք բերվում, և օգտագործել այս տեղեկատվությունը մարքեթինգային նպատակներով: Սա երբեմն կոչվում է շուկայական զամբյուղի վերլուծություն:
Կլաստերի վերլուծություն. տվյալների մեջ խմբերի և կլաստերների հայտնաբերման խնդիրն է, որոնց ներսում գտնվող տվյալները ինչ-որ կերպ նման են միմյանց և տարբեր՝ մյուս խմբերի տվյալներից: Այդ խմբերը նախապես հայտնի չեն:
Դասակարգում/կլասիֆիկացիա - այս դեպքում տվյալների կառուցվածքը արդեն իսկ հայտնի է և խնդիրը այդ կառուցվածքը նոր տվյալների վրա կիրառելն է: Օրինակ, էլեկտրոնային նամակները կարելի է որևէ ծրագրի միջոցով դասակարգել սովորական նամակ կամ որպես սպամ:
Ռեգրեսիա - փորձում է գտնել այնպիսի ֆունկցիա, որը գնահատելով տվյալների միջև կապը, տվյալները մոդելավորում է նվազագույն սխալով:
Ամփոփում - տվյալների հակիրճ նկարագրություն՝ ներառյալ դրանց պատկերում/վիզուալացում և զեկույցների ստեղծման, ավելի կոմպակտ ներկայացում ապահովում:

Արդյունքների վավերացում[խմբագրել | խմբագրել կոդը]

Տվյալների հետազոտումը կարող է ակամայից չարաշահվել, և այնուհետև կարող է հանգեցնել այնպիսի արդյունքների, որոնք թվում են նշանակալի, բայց որոնք իրականում չեն կանխատեսում ապագա պահվածքը և չեն կարող վերարտադրվել տվյալների նոր նմուշի վրա և դժվար թե օգտագործման համար պիտանի լինեն: Սա հաճախ հանգեցնում է չափազանց շատ վարկածներ ուսումնասիրելուն և ոչ թե պատշաճ վիճակագրական վարկածների ստուգում կատարելուն: Այս խնդրի պարզ տարբերակը մեքենայական ուսուցման մեջ հայտնի է որպես գերակատարում/օվերֆիթինգ, բայց նույն խնդիրը կարող է առաջանալ գործընթացի տարբեր փուլերում, ուստի վերապատրաստման/թեստավորման մոդելը միշտ չէ, որ կարող է կանխարգելել գերակատարումը: ^[17]

KDD-ի վերջին քայլը վերիֆիկացումն է, որ տվյալների հետազոտման ալգորիթմների միջոցով ստացված օրինաչափությունները տեղի ունեն նաև ավելի մեծ տվյալների համար: Տվյալների հետազոտման ալգորիթմների կողմից հայտնաբերված ոչ բոլոր օրինաչափությունները կարող են լինել վավեր: Երբեմն տվյալների հետազոտման ալգորիթմները կարող են վերապատրաստման մոդելի համար գտնել այնպիսի օրինաչափություններ, որոնք ընդհանուր տվյալներում առկա չեն: Սա կոչվում է գերակատարում: Դա հաղթահարելու համար գնահատումը օգտագործում է տվյալների թեստային տվյալներ, որի վրա տվյալների հետազոտման ալգորիթմը նախկինում չի կիրառվել: Գտնված օրինաչափությունները կիրառվում են այս տվյալների վրա, և արդյունքում ստացված արդյունքը համեմատվում է ցանկալի արդյունքի հետ: Օրինակ, տվյալների հետազոտման ալգորիթմը, որը փորձում է տարբերակել սպամը սովորական էլեկտրոնային նամակից հասցեներից, սովորում է է ընտրանքային էլեկտրոնային հասցեների վերապատրաստման նմուշի վրա: Ստացված օրինաչափությունները կիրառվում են էլեկտրոնային փոստի թեստային նմուշի վրա, որի վրա այն չի սովորել: Սրա ճշգրտությունը այնուհետև կարելի է չափել ճիշտ դասակարգված էլեկտրոնային փոստերի քանակով: Ալգորիթմի գնահատման համար կարող են օգտագործվել մի քանի վիճակագրական մեթոդներ, ինչպիսիք են ROC կորերը:

Եթե սովորված օրինաչափությունները չեն համապատասխանում ցանկալի չափանիշներին, ապա անհրաժեշտ է վերագնահատել և փոխել նախամշակման և տվյալների հետազոտման քայլերը: Եթե սովորած օրինաչափությունները բավարարում են ցանկալի չափանիշներին, ապա վերջնական քայլը սովորած օրինաչափությունները մեկնաբանելն ու գիտելիքի վերածելն է:

Հատկանշական օգտագործումներ[խմբագրել | խմբագրել կոդը]

Տվյալների հետազոտումն օգտագործվում է այնտեղ, որտեղ այսօր առկա են թվային տվյալներ: Տվյալների հետազոտման ուշագրավ օրինակներ կարելի է գտնել բիզնեսի, բժշկության, գիտության և վերահսկողության ոլորտներում:

Գաղտնիության հետ կապված մտահոգություններ և էթիկա[խմբագրել | խմբագրել կոդը]

Տվյալների հետազոտումը հաճախ կապված է կապված մարդկանց վարքի վերաբերյալ տեղեկատվության հետ (էթիկական և այլ): ^[18]

Տվյալների հետազոտումը որոշ դեպքերում կարող են խնդիրներ առաջացնել գաղտնիության, օրինականության և էթիկայի վերաբերյալ: ^[19] Մասնավորապես, երկրի անվտանգության կամ իրավապահ մարմինների համար տվյալների հետազոտությունները մտահոգությունների տեղիք են տվել: ^[20] ^[21]

Առաջարկվում է տվյալների հավաքագրումից առաջ անհրաժեշտ է հաշվի առնել ներքոնշյալ կետերը.

տվյալների հավաքագրման և հետազոտման նպատակը.
ինչպես են օգտագործվելու տվյալները.
ով հասանելիություն կունենա տվյալներին և օգտագործել դրանք.
անվտանգության կարգավիճակը՝ կապված տվյալներին հասանելիության հետ.
ինչպես կարող են հավաքագրված տվյալները թարմացվել:

Տվյալները կարող են փոփոխվել այնպես, որ պարունակեն անանուն ինֆորմացիա, որպեսզի անհատները չնույնականացվեն: Այնուամենայնիվ, նույնիսկ «անանունացված» տվյալները կարող են պարունակել բավականաչափ տեղեկատվություն՝ անձանց նույնականացման համար:

Տվյալների հետազոտման անվճար ծրագիր և հավելվածներ[խմբագրել | խմբագրել կոդը]

Հետևյալ ծրագրերը հասանելի են անվճար / բաց աղբյուրի լիցենզիայի ներքո: Հավելվածի աղբյուրի կոդը ևս հասանելի է հանրությանը:

Carrot2 . Տեքստի և որոնման արդյունքների կլաստերավորման շրջանակ:
Chemicalize.org . Քիմիական կառուցվածքի հետազոտման և վեբ որոնման համակարգ:
ELKI . Համալսարանական հետազոտական նախագիծ` կլաստերի խորը վերլուծությամբ և տարբերվող կետերի հայտնաբերման մեթոդներով, որոնք գրված են Java լեզվով:
GATE . Բնական լեզվի մշակման գործիք:
KNIME . Konstanz Information Miner՝ օգտագործողի համար հարմար և տվյալների համապարփակ վերլուծության շրջանակ:
Զանգվածային առցանց վերլուծություն (MOA) . Իրական ժամանակի մեծ տվյալների հոսքի հետազոտում՝ Java ծրագրավորման լեզվով:
MEPX - ռեգրեսիայի և դասակարգման խնդիրների խաչաձև պլատֆորմային գործիք ՝ գենետիկ ծրագրավորման տարբերակի հիման վրա:
ML-Flex. Ծրագրային փաթեթ, որն օգտագործողներին հնարավորություն է տալիս ինտեգրվել երրորդ կողմից ծրագրավորման ցանկացած լեզվով գրված մեքենաշինական փաթեթների հետ, կատարել կլաստերային վերլուծություններ և պատրաստել դասակարգման ստացված արդյունքների վերաբերյալ զեկույցներ HTML ֆորմատով:
mlpack . պատրաստի օգտագործման մեքենայական ալգորիթմների հավաքածու, որը գրված է C ++ լեզվով:
NLTK ( Բնական լեզվի գործիքակազմ ). Սիմվոլների և վիճակագրական բնական լեզվի մշակման համար Python ծրագրավորման լեզվով գրված գրադարանների և ծրագրերի հավաքակազմ:
OpenNN . Նեյրոնային ցանցերի բաց գրադարան:
Orange . Բաղադրիչների վրա հիմնված տվյալների հետազոտման և մեքենայական ուսուցման ծրագրային հավաքակազմ, որը գրված է Python լեզվով:
R. Ծրագրավորման լեզու և ծրագրաային միջավայր վիճակագրական հաշվարկների, տվյալների հետազոտման և գրաֆիկայի համար: Այն GNU ծրագրի մի մասն է:
scikit-Learn- ը Python ծրագրավորման լեզվի համար բաց գրադարան է:
Torch . Խորը ուսուցման համար նախատեսված բաց գրադարան՝ Lua ծրագրավորման լեզվի և գիտական հաշվարկների շրջանակի համար՝ մեքենայական ուսուցման ալգորիթմների լայն աջակցությամբ:
UIMA . UIMA- ն (Չկառուցված տեղեկատվության կառավարման համակարգ) չկառուցված բովանդակության վերլուծության համար բաղկացուցիչ հիմք է, ինչպիսիք են տեքստը, աուդիոն և վիդեոն, որոնք ի սկզբանե մշակվել են IBM- ի կողմից:
Weka . Java- ի ծրագրավորման լեզվով գրված մեքենայական ուսուցման ծրագրերի խումբ է:

[[Կատեգորիա:Ֆորմալ գիտություններ]]

↑ «Data Mining Curriculum». ACM SIGKDD. 2006-04-30. Վերցված է 2014-01-27-ին.
↑ Clifton, Christopher (2010). «Encyclopædia Britannica: Definition of Data Mining». Վերցված է 2010-12-09-ին.
↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). «The Elements of Statistical Learning: Data Mining, Inference, and Prediction». Արխիվացված է օրիգինալից 2009-11-10-ին. Վերցված է 2012-08-07-ին.
↑ Han, Kamber, Pei, Jaiwei, Micheline, Jian (June 9, 2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.{{cite book}}: CS1 սպաս․ բազմաթիվ անուններ: authors list (link)
↑ ^5,0 ^5,1 ^5,2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). «From Data Mining to Knowledge Discovery in Databases» (PDF). Վերցված է 17 December 2008-ին.
↑ Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. էջ 5. ISBN 978-1-55860-489-6. «Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long»
↑ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
↑ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). «WEKA Experiences with a Java open-source project». Journal of Machine Learning Research. 11: 2533–2541. «the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.»
↑ Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181-193. doi:10.1007/s11628-006-0014-7
↑ Lovell, Michael C. (1983). «Data Mining». The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
↑ Charemza, Wojciech W.; Deadman, Derek F. (1992). «Data Mining». New Directions in Econometric Practice. Aldershot: Edward Elgar. էջեր 14–31. ISBN 1-85278-461-X.
↑ Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
↑ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). «Lesson: Data Mining, and Knowledge Discovery: An Introduction». Introduction to Data Mining. KD Nuggets. Վերցված է 30 August 2012-ին.
↑ Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
↑ Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
↑ Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi:10.1017/S0269888906000737
↑ Hawkins, Douglas M (2004). «The problem of overfitting». Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
↑ Seltzer, William (2005). «The Promise and Pitfalls of Data Mining: Ethical Issues» (PDF). ASA Section on Government Statistics. American Statistical Association.
↑ Pitts, Chip (15 March 2007). «The End of Illegal Domestic Spying? Don't Count on It». Washington Spectator. Արխիվացված է օրիգինալից 2007-11-28-ին.
↑ Taipale, Kim A. (15 December 2003). «Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data». Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782.
↑ Resig, John. «A Framework for Mining Instant Messaging Services» (PDF). Վերցված է 16 March 2018-ին.

[acm-1] «Data Mining Curriculum». ACM SIGKDD. 2006-04-30. Վերցված է 2014-01-27-ին.

[brittanica-2] Clifton, Christopher (2010). «Encyclopædia Britannica: Definition of Data Mining». Վերցված է 2010-12-09-ին.

[elements-3] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). «The Elements of Statistical Learning: Data Mining, Inference, and Prediction». Արխիվացված է օրիգինալից 2009-11-10-ին. Վերցված է 2012-08-07-ին.

[4] Han, Kamber, Pei, Jaiwei, Micheline, Jian (June 9, 2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.{{cite book}}: CS1 սպաս․ բազմաթիվ անուններ: authors list (link)

[Fayyad-5] 5,0 ^5,1 ^5,2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). «From Data Mining to Knowledge Discovery in Databases» (PDF). Վերցված է 17 December 2008-ին.

[han-kamber-6] Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. էջ 5. ISBN 978-1-55860-489-6. «Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long»

[witten-7] Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.

[8] Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). «WEKA Experiences with a Java open-source project». Journal of Machine Learning Research. 11: 2533–2541. «the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.»

[9] Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181-193. doi:10.1007/s11628-006-0014-7

[10] Lovell, Michael C. (1983). «Data Mining». The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.

[11] Charemza, Wojciech W.; Deadman, Derek F. (1992). «Data Mining». New Directions in Econometric Practice. Aldershot: Edward Elgar. էջեր 14–31. ISBN 1-85278-461-X.

[Mena-12] Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.

[13] Piatetsky-Shapiro, Gregory; Parker, Gary (2011). «Lesson: Data Mining, and Knowledge Discovery: An Introduction». Introduction to Data Mining. KD Nuggets. Վերցված է 30 August 2012-ին.

[Kantardzic-14] Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.

[15] Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll

[kurgan-16] Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi:10.1017/S0269888906000737

[hawkins-17] Hawkins, Douglas M (2004). «The problem of overfitting». Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.

[18] Seltzer, William (2005). «The Promise and Pitfalls of Data Mining: Ethical Issues» (PDF). ASA Section on Government Statistics. American Statistical Association.

[19] Pitts, Chip (15 March 2007). «The End of Illegal Domestic Spying? Don't Count on It». Washington Spectator. Արխիվացված է օրիգինալից 2007-11-28-ին.

[20] Taipale, Kim A. (15 December 2003). «Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data». Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782.

[21] Resig, John. «A Framework for Mining Instant Messaging Services» (PDF). Վերցված է 16 March 2018-ին.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]