Մասնակից:Աննա Բեժանյան/Big data
Տվյալների մայնինգը կամ տվյալների հետազոտումը օրինաչափությունների հայտնաբերման գործընթացն է մեծ տվյալների ամբողջության մեջ, որը ներառում է մեքենայական ուսուցման, վիճակագրության և տվյալների բազայի համակարգերի մեթոդներ: Տվյալների հետազոտումը համակարգչային գիտության և վիճակագրության միջդիսցիպլինար ենթաճյուղ է, որի նպատակն է ՙՙխելացի՚՚ մեթոդներով տվյալների ամբողջությունից տեղեկատվության ստացումն ու վերափոխումը հասկանալի կառուցվածքի՝ հետագա օգտագործման համար: [1] [2] [3] [4] Տվյալների հետազոտումը «տվյալների բազայում գիտելիքների հայտնաբերման» գործընթացի կամ KDD- ի վերլուծության քայլն է: [5] Բացի վերլուծությունից, այն ներառում է նաև տվյալների բազայի և տվյալների կառավարման ասպեկտներ, տվյալների նախնական վերամշակում, մոդելի և եզրակացության նկատառումներ, հետաքրքրության չափումներ, բարդությունների նկատառումներ, կառուցվածքի հետագա վերամշակում, վիզուալացում և առցանց թարմացում:
Տվյալների հետազոտման նպատակը մեծ քանակությամբ տվյալներից օրինաչափությունների և տեղեկատվության դուրսբերումն է:[6] Այն նաև կիրառվում է լայնածավալ տվյալների կամ տեղեկատվության մշակման տարբեր ձևերի ( հավաքում, արտահանում, պահում, վերլուծություն և վիճակագրություն), ինչպես նաև համակարգչային որոշումների աջակցման համակարգի կիրառման մեջ, ներառյալ արհեստական բանականության (օրինակ ՝ մեքենայական ուսուցում) և բիզնեսի ռազմավարության և տեխնոլոգիաների մեջ (business intelligence): «Տվյալների հետազոտում. մեքենայական ուսուցման գործիքներ և տեխնիկա Java-ով» [7] գիրքը, որն ընդգրկում է հիմնականում մեքենայական ուսուցման մասին նյութեր, սկզբնապես պետք է անվանվեր պարզապես «Գործնական մեքենայական ուսուցում», և տվյալների հետազոտում տերմինը ավելացվել է միայն մարկետինգային նպատակներով: [8]
Տվյալների հետազոտման իրական խնդիրը մեծ քանակությամբ տվյալների մասնակիորեն կամ ամբողջությամբ ավտոմատացված վերլուծություն է, որպեսզի գտնենք նախկինում անհայտ, հետաքրքիր օրինաչափություններ, ինչպիսիք են տվյալների խմբերը ( կլաստներերի վերլուծություն ), անսովոր գրանցումները ( անոմալիաների հայտնաբերում ) և կախվածությունը: Սա սովորաբար ներառում է տվյալների բազայի մեթոդներ, ինչպիսիք են տարածական ցուցանիշները: Այս նմուշները այնուհետև կարող են դիտվել որպես մուտքային տվյալների մի տեսակ ամփոփում և կարող են օգտագործվել հետագա վերլուծության կամ, օրինակ, մեքենայական ուսուցման և կանխատեսման վերլուծության մեջ: Օրինակ, տվյալների հետազոտության քայլը կարող է նույնականացնել բազմաթիվ խմբերի տվյալների մեջ, որոնք այնուհետև կարող են օգտագործվել որոշումների աջակցության համակարգով ավելի ճշգրիտ կանխատեսման արդյունքներ ստանալու համար: Տվյալների հավաքագրումը, տվյալների նախապատրաստումը, արդյունքների մեկնաբանումը և հաշվետվությունը չեն հանդիսանում տվյալների հետազոտման քայլի մաս, բայց պատկանում են ընդհանուր KDD գործընթացին՝ որպես լրացուցիչ քայլեր:
Տվյալների վերլուծության և տվյալների հետազոտման միջև տարբերությունն այն է, որ տվյալների վերլուծությունն օգտագործվում է տվյալների բազայում մոդելների և վարկածների փորձարկման համար, օրինակ՝ շուկայավարման արշավի արդյունավետությունը վերլուծելու համար՝ անկախ տվյալների քանակությունից: Տվյալների հետազոտումն իրականացվում է մեքենայական ուսուցման և վիճակագրական մոդելների միջոցով՝ մեծ ծավալի տվյալների թաքնված օրինաչափությունները բացահայտելու համար: [9]
Տտվյալների աղավաղում, տվյալների ֆիշինգ և տվյալների զննում տերմինները վերաբերում են տվյալների հետազոտման մեթոդների օգտագործմանը` ավելի մեծ թվով տվյալների ընտրանքներ կազմելու համար, որոնք կարող են շատ փոքր լինել վավերության վերաբերյալ հուսալի վիճակագրական եզրակացություններ կատարելու համար: Այնուամենայնիվ, այս մեթոդները, կարող են օգտագործվել նոր վարկածներ ստեղծելու համար՝ տվյալների ավելի մեծ քանակների ստուգման համար:
Էթիմոլոգիա[խմբագրել | խմբագրել կոդը]
1960-ական թվականներին վիճակագիրներն ու տնտեսագետները օգտագործում էին տվյալների ֆիշինգ կամ տվյալների աղավաղում տերմինները բնութագրելու համար տվյալների վերլուծությունը առանց առաջնային վարկածի, ինչը տվյալների վերլուծության վատ ձև էր համարվում: «Տվյալների հետազոտում» տերմինը օգտագործվել է նաև տնտեսագետ Մայքլ Լոուելի կողմից 1983-ին«Տնտեսագիտական ուսումնասիրությունների ակնարկ» ամսագրում տպագրված հոդվածում: [10] [11]
Տվյալների հետազոտում տերմինը ի հայտ է եկել 1990 թ.-ին: 1980-ականներին կարճ ժամանակով օգտագործվել է «տվյալների բազաների հետազոտում» արտահայտությունը, բայց, քանի որ այն ապրանքային նշան է ստացել Սան Դիեգոյի կենտրոնում գործող HNC ընկերության կողմից՝ հիմնելու իրենց տվյալների բազայի հետազոտման կայանը, [12] մասնագետները տերմինը վերանվանեցին տվյալների հետազոտում: Օգտագործվում են նաև այլ տերմիններ՝ տեղեկատվության հավաքում և պահպանում, տեղեկատվության բացահայտում և այլն: Գրեգորի Պիացեցկի-Շապիրոն առաջարկել է «գիտելիքներ տվյալների բազաների վերաբերյալ» տերմինը նույն թեմայով առաջին սեմինարի համար (KDD-1989), և այս տերմինը ավելի տարածված դարձավ AI և մեքենայական ուսուցման ոլորտներում: Ներկայումս, տվյալների հետազոտում տերմինը ավելի տարածված է բիզնեսի ոլորտներում: [13]
Ակադեմիական ոլորտում հետազոտությունները սկսվել են 1995 թվականից, երբ Մոնրեալում կայացավ տվյալների հետազոտման և գիտելիքների բացահայտման առաջին միջազգային համաժողովը ( KDD-95 ) ՝ AAAI- ի հովանավորությամբ: Այն համանախագահում էին Ուսամա Ֆայադը և Ռամասամի Ութուրուսամին: KDD միջազգային կոնֆերանսը դարձավ տվյալների հետազոտման առաջին խորհրդաժողովը, որին ներկացված հետազոտական փաստաթղթերից ընդունվել է 18%-ից քիչը: Data Mining and Knowledge Discovery ամսագիրը ոլորտի առաջնահերթ հետազոտական ամսագիր է:
Նախապատմություն[խմբագրել | խմբագրել կոդը]
Տվյալներից ընտրանքներ կազմելը դարեր շարունակ կատարվել է ձեռքով: Տվյալներում օրինաչափությունների հայտնաբերման սկզբնական մեթոդներից են Բայեսի թեորեմը (1700-ականներ) և ռեգրեսիայի վերլուծությունը (1800-ականներ): Համակարգչային տեխնոլոգիաների տարածումը փոփոխել են տվյալների հավաքագրման, պահպանման և մանիպուլյացիայի ձևերը: Տվյալների ծավալներն աճել են իրենց չափերով և բարդությամբ, ինչը տվյալների մշակման ավտոմատացման անհրաժեշտություն է առաջացրել, որի համար սկսել են օգտագործել նաև համակարգչային գիտության հայտնագործությունները, մասնավորապես՝ մեքենայական ուսուցման ոլորտում, ինչպիսիք են նեյրոնային ցանցերը, կլաստերի վերլուծությունը, գենետիկական ալգորիթմներ (1950-ականներ), որոշման ծառեր և որոշումների կանոններ (1960-ականներ) և օժանդակ վեկտորային մեքենաներ (1990-ականներ): Տվյալների հետազոտումը այս մեթոդների կիրառման միջոցով թաքնված բացահայտումն է: [14] Այն կապ է ստեղծում կիրառական վիճակագրության, արհեստական բանականության (որոնք սովորաբար ապահովում են մաթեմատիկական ֆոնը) և տվյալների բազաների կառավարման միջև` մշակելով այն եղանակները, որոնց միջոցով տվյալները պահպանվում և ինդեքսավորվում են տվյալների բազաներում սովորելու և հայտնագործման ալգորիթմներն առավել արդյունավետ իրականացնելու համար, ինչը թույլ է տալիս այդպիսի մեթոդները կիրառվել ավելի մեծ թվով տվյալների վրա:
Ընթացքը[խմբագրել | խմբագրել կոդը]
KDD գործընթացի հիմնական փուլերն են.
- Ընտրություն
- Նախնական վերամշակում
- Վերափոխում
- Տվյալների հետազոտում կամ մայնինգ
- Մեկնաբանում/գնահատում: [5]
Գոյություն ունեն նաև այլ բաժանումներ, օրինակ՝ CRISP-DM, որը սահմանում է վեց փուլ.
- Բիզնեսի ընկալում
- Տվյալների ընկալում
- Տվյալների նախապատրաստում
- Մոդելավորում
- Գնահատում
- Տեղակայում
Կա նաև ավելի պարզեցված տարբերակը՝ (1) նախնական վերամշակում, (2) տվյալների հետազոտում և (3) արդյունքների վավերացումը:
2002, 2004, 2007 և 2014 թվականներին անցկացված հարցումները ցույց են տվել, որ CRISP-DM մեթոդաբանությունը ամենաշատ օգտագործվողն է: [15] Այս հարցումներում նշված տարբերակներից մեկը SEMMA- ն էր: Այնուամենայնիվ, CRISP-DM օգտագործողների թիվը 3-4 անգամ ավելի շատ է: Հետազոտողների մի քանի թիմեր հրապարակել են տվյալների հետազոտման գործընթացների մոդելների մասին ակնարկներ, [16] իսկ Ազևեդոն և Սանտոսը 2008 թ.-ին կատարել են CRISP-DM- ի և SEMMA- ի համեմատությունը:
Նախնական վերամշակում[խմբագրել | խմբագրել կոդը]
Նախքան տվյալների հետազոտման ալգորիթմների օգտագործումը անհրաժեշտ է հավաքել նպատակային օգտագործման տվյալներ: Քանի որ տվյալների հետազոտումը կարող է բացահայտել միայն տվյալներում առկա օրինաչափությունները, նպատակային օգտագործման տվյալները պետք է լինեն բավականաչափ մեծ, որպեսզի պարունակեն այդ օրինաչափությունները, և միևնույն ժամանակ հակիրճ, որպեսզի հետազոտումը կատարվի խելամիտ ժամկետներում: Տվյալների հիմնական աղբյուրը տվյալների պահեստն է: Տվյալների հետազոտումից առաջ դրանց նախամշակումը անհրաժեշտ է բազմափոփոխական տվյալների վերլուծության համար: Թիրախային տվյալներն այնուհետև մաքրվում են: Տվյալների մաքրումը հեռացնում է աղմուկ և/կամ բացակայող տվյալներ պարունակող դիտարկումները:
Տվյալների մայնինգ/հետազոտում[խմբագրել | խմբագրել կոդը]
Տվյալների հետազոտումը ներառում է վեց տիպի առաջադրանք. [5]
- Անոմալիայի հայտնաբերում (հեռավորության / փոփոխության / շեղման հայտնաբերում) - Անսովոր տվյալների նույնականացում, որոնք կարող են հետաքրքիր լինել կամ տվյալների սխալներ, որոնք պահանջում են հետագա հետազոտություն:
- Ասոցիացիայի կանոնների ուսուցում (կախվածության մոդելավորում) - փոփոխականների միջև փոխհարաբերությունների որոնում: Օրինակ, սուպերմարկետը կարող է հավաքել տվյալներ հաճախորդի գնման սովորությունների վերաբերյալ: Օգտագործելով ասոցիացիայի կանոնների ուսուցումը՝ սուպերմարկետը կարող է որոշել, թե որ ապրանքատեսակներն են հաճախ միասին ձեռք բերվում, և օգտագործել այս տեղեկատվությունը մարքեթինգային նպատակներով: Սա երբեմն կոչվում է շուկայական զամբյուղի վերլուծություն:
- Կլաստերի վերլուծություն. տվյալների մեջ խմբերի և կլաստերների հայտնաբերման խնդիրն է, որոնց ներսում գտնվող տվյալները ինչ-որ կերպ նման են միմյանց և տարբեր՝ մյուս խմբերի տվյալներից: Այդ խմբերը նախապես հայտնի չեն:
- Դասակարգում/կլասիֆիկացիա - այս դեպքում տվյալների կառուցվածքը արդեն իսկ հայտնի է և խնդիրը այդ կառուցվածքը նոր տվյալների վրա կիրառելն է: Օրինակ, էլեկտրոնային նամակները կարելի է որևէ ծրագրի միջոցով դասակարգել սովորական նամակ կամ որպես սպամ:
- Ռեգրեսիա - փորձում է գտնել այնպիսի ֆունկցիա, որը գնահատելով տվյալների միջև կապը, տվյալները մոդելավորում է նվազագույն սխալով:
- Ամփոփում - տվյալների հակիրճ նկարագրություն՝ ներառյալ դրանց պատկերում/վիզուալացում և զեկույցների ստեղծման, ավելի կոմպակտ ներկայացում ապահովում:
Արդյունքների վավերացում[խմբագրել | խմբագրել կոդը]
Տվյալների հետազոտումը կարող է ակամայից չարաշահվել, և այնուհետև կարող է հանգեցնել այնպիսի արդյունքների, որոնք թվում են նշանակալի, բայց որոնք իրականում չեն կանխատեսում ապագա պահվածքը և չեն կարող վերարտադրվել տվյալների նոր նմուշի վրա և դժվար թե օգտագործման համար պիտանի լինեն: Սա հաճախ հանգեցնում է չափազանց շատ վարկածներ ուսումնասիրելուն և ոչ թե պատշաճ վիճակագրական վարկածների ստուգում կատարելուն: Այս խնդրի պարզ տարբերակը մեքենայական ուսուցման մեջ հայտնի է որպես գերակատարում/օվերֆիթինգ, բայց նույն խնդիրը կարող է առաջանալ գործընթացի տարբեր փուլերում, ուստի վերապատրաստման/թեստավորման մոդելը միշտ չէ, որ կարող է կանխարգելել գերակատարումը: [17]
KDD-ի վերջին քայլը վերիֆիկացումն է, որ տվյալների հետազոտման ալգորիթմների միջոցով ստացված օրինաչափությունները տեղի ունեն նաև ավելի մեծ տվյալների համար: Տվյալների հետազոտման ալգորիթմների կողմից հայտնաբերված ոչ բոլոր օրինաչափությունները կարող են լինել վավեր: Երբեմն տվյալների հետազոտման ալգորիթմները կարող են վերապատրաստման մոդելի համար գտնել այնպիսի օրինաչափություններ, որոնք ընդհանուր տվյալներում առկա չեն: Սա կոչվում է գերակատարում: Դա հաղթահարելու համար գնահատումը օգտագործում է տվյալների թեստային տվյալներ, որի վրա տվյալների հետազոտման ալգորիթմը նախկինում չի կիրառվել: Գտնված օրինաչափությունները կիրառվում են այս տվյալների վրա, և արդյունքում ստացված արդյունքը համեմատվում է ցանկալի արդյունքի հետ: Օրինակ, տվյալների հետազոտման ալգորիթմը, որը փորձում է տարբերակել սպամը սովորական էլեկտրոնային նամակից հասցեներից, սովորում է է ընտրանքային էլեկտրոնային հասցեների վերապատրաստման նմուշի վրա: Ստացված օրինաչափությունները կիրառվում են էլեկտրոնային փոստի թեստային նմուշի վրա, որի վրա այն չի սովորել: Սրա ճշգրտությունը այնուհետև կարելի է չափել ճիշտ դասակարգված էլեկտրոնային փոստերի քանակով: Ալգորիթմի գնահատման համար կարող են օգտագործվել մի քանի վիճակագրական մեթոդներ, ինչպիսիք են ROC կորերը:
Եթե սովորված օրինաչափությունները չեն համապատասխանում ցանկալի չափանիշներին, ապա անհրաժեշտ է վերագնահատել և փոխել նախամշակման և տվյալների հետազոտման քայլերը: Եթե սովորած օրինաչափությունները բավարարում են ցանկալի չափանիշներին, ապա վերջնական քայլը սովորած օրինաչափությունները մեկնաբանելն ու գիտելիքի վերածելն է:
Հատկանշական օգտագործումներ[խմբագրել | խմբագրել կոդը]
Տվյալների հետազոտումն օգտագործվում է այնտեղ, որտեղ այսօր առկա են թվային տվյալներ: Տվյալների հետազոտման ուշագրավ օրինակներ կարելի է գտնել բիզնեսի, բժշկության, գիտության և վերահսկողության ոլորտներում:
Գաղտնիության հետ կապված մտահոգություններ և էթիկա[խմբագրել | խմբագրել կոդը]
Տվյալների հետազոտումը հաճախ կապված է կապված մարդկանց վարքի վերաբերյալ տեղեկատվության հետ (էթիկական և այլ): [18]
Տվյալների հետազոտումը որոշ դեպքերում կարող են խնդիրներ առաջացնել գաղտնիության, օրինականության և էթիկայի վերաբերյալ: [19] Մասնավորապես, երկրի անվտանգության կամ իրավապահ մարմինների համար տվյալների հետազոտությունները մտահոգությունների տեղիք են տվել: [20] [21]
Առաջարկվում է տվյալների հավաքագրումից առաջ անհրաժեշտ է հաշվի առնել ներքոնշյալ կետերը.
- տվյալների հավաքագրման և հետազոտման նպատակը.
- ինչպես են օգտագործվելու տվյալները.
- ով հասանելիություն կունենա տվյալներին և օգտագործել դրանք.
- անվտանգության կարգավիճակը՝ կապված տվյալներին հասանելիության հետ.
- ինչպես կարող են հավաքագրված տվյալները թարմացվել:
Տվյալները կարող են փոփոխվել այնպես, որ պարունակեն անանուն ինֆորմացիա, որպեսզի անհատները չնույնականացվեն: Այնուամենայնիվ, նույնիսկ «անանունացված» տվյալները կարող են պարունակել բավականաչափ տեղեկատվություն՝ անձանց նույնականացման համար:
Տվյալների հետազոտման անվճար ծրագիր և հավելվածներ[խմբագրել | խմբագրել կոդը]
Հետևյալ ծրագրերը հասանելի են անվճար / բաց աղբյուրի լիցենզիայի ներքո: Հավելվածի աղբյուրի կոդը ևս հասանելի է հանրությանը:
- Carrot2 . Տեքստի և որոնման արդյունքների կլաստերավորման շրջանակ:
- Chemicalize.org . Քիմիական կառուցվածքի հետազոտման և վեբ որոնման համակարգ:
- ELKI . Համալսարանական հետազոտական նախագիծ` կլաստերի խորը վերլուծությամբ և տարբերվող կետերի հայտնաբերման մեթոդներով, որոնք գրված են Java լեզվով:
- GATE . Բնական լեզվի մշակման գործիք:
- KNIME . Konstanz Information Miner՝ օգտագործողի համար հարմար և տվյալների համապարփակ վերլուծության շրջանակ:
- Զանգվածային առցանց վերլուծություն (MOA) . Իրական ժամանակի մեծ տվյալների հոսքի հետազոտում՝ Java ծրագրավորման լեզվով:
- MEPX - ռեգրեսիայի և դասակարգման խնդիրների խաչաձև պլատֆորմային գործիք ՝ գենետիկ ծրագրավորման տարբերակի հիման վրա:
- ML-Flex. Ծրագրային փաթեթ, որն օգտագործողներին հնարավորություն է տալիս ինտեգրվել երրորդ կողմից ծրագրավորման ցանկացած լեզվով գրված մեքենաշինական փաթեթների հետ, կատարել կլաստերային վերլուծություններ և պատրաստել դասակարգման ստացված արդյունքների վերաբերյալ զեկույցներ HTML ֆորմատով:
- mlpack . պատրաստի օգտագործման մեքենայական ալգորիթմների հավաքածու, որը գրված է C ++ լեզվով:
- NLTK ( Բնական լեզվի գործիքակազմ ). Սիմվոլների և վիճակագրական բնական լեզվի մշակման համար Python ծրագրավորման լեզվով գրված գրադարանների և ծրագրերի հավաքակազմ:
- OpenNN . Նեյրոնային ցանցերի բաց գրադարան:
- Orange . Բաղադրիչների վրա հիմնված տվյալների հետազոտման և մեքենայական ուսուցման ծրագրային հավաքակազմ, որը գրված է Python լեզվով:
- R. Ծրագրավորման լեզու և ծրագրաային միջավայր վիճակագրական հաշվարկների, տվյալների հետազոտման և գրաֆիկայի համար: Այն GNU ծրագրի մի մասն է:
- scikit-Learn- ը Python ծրագրավորման լեզվի համար բաց գրադարան է:
- Torch . Խորը ուսուցման համար նախատեսված բաց գրադարան՝ Lua ծրագրավորման լեզվի և գիտական հաշվարկների շրջանակի համար՝ մեքենայական ուսուցման ալգորիթմների լայն աջակցությամբ:
- UIMA . UIMA- ն (Չկառուցված տեղեկատվության կառավարման համակարգ) չկառուցված բովանդակության վերլուծության համար բաղկացուցիչ հիմք է, ինչպիսիք են տեքստը, աուդիոն և վիդեոն, որոնք ի սկզբանե մշակվել են IBM- ի կողմից:
- Weka . Java- ի ծրագրավորման լեզվով գրված մեքենայական ուսուցման ծրագրերի խումբ է:
[[Կատեգորիա:Ֆորմալ գիտություններ]]
- ↑ «Data Mining Curriculum». ACM SIGKDD. 2006-04-30. Վերցված է 2014-01-27-ին.
- ↑ Clifton, Christopher (2010). «Encyclopædia Britannica: Definition of Data Mining». Վերցված է 2010-12-09-ին.
- ↑ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). «The Elements of Statistical Learning: Data Mining, Inference, and Prediction». Արխիվացված է օրիգինալից 2009-11-10-ին. Վերցված է 2012-08-07-ին.
- ↑ Han, Kamber, Pei, Jaiwei, Micheline, Jian (June 9, 2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
{{cite book}}
: CS1 սպաս․ բազմաթիվ անուններ: authors list (link) - ↑ 5,0 5,1 5,2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). «From Data Mining to Knowledge Discovery in Databases» (PDF). Վերցված է 17 December 2008-ին.
- ↑ Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. էջ 5. ISBN 978-1-55860-489-6. «Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long»
- ↑ Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
- ↑ Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). «WEKA Experiences with a Java open-source project». Journal of Machine Learning Research. 11: 2533–2541. «the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.»
- ↑ Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181-193.
- ↑ Lovell, Michael C. (1983). «Data Mining». The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
- ↑ Charemza, Wojciech W.; Deadman, Derek F. (1992). «Data Mining». New Directions in Econometric Practice. Aldershot: Edward Elgar. էջեր 14–31. ISBN 1-85278-461-X.
- ↑ Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
- ↑ Piatetsky-Shapiro, Gregory; Parker, Gary (2011). «Lesson: Data Mining, and Knowledge Discovery: An Introduction». Introduction to Data Mining. KD Nuggets. Վերցված է 30 August 2012-ին.
- ↑ Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
- ↑ Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
- ↑ Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA
- ↑ Hawkins, Douglas M (2004). «The problem of overfitting». Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
- ↑ Seltzer, William (2005). «The Promise and Pitfalls of Data Mining: Ethical Issues» (PDF). ASA Section on Government Statistics. American Statistical Association.
- ↑ Pitts, Chip (15 March 2007). «The End of Illegal Domestic Spying? Don't Count on It». Washington Spectator. Արխիվացված է օրիգինալից 2007-11-28-ին.
- ↑ Taipale, Kim A. (15 December 2003). «Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data». Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782.
- ↑ Resig, John. «A Framework for Mining Instant Messaging Services» (PDF). Վերցված է 16 March 2018-ին.