Սպամդեքսինգ

Վիքիպեդիայից՝ ազատ հանրագիտարանից


Սպամդեքսինգը (նաև հայտնի որպես փնտրման սպամ կամ փնտրման համակարգի սպամ) ընդգրկում է մի շարք մեթոդներ, ինչպիսիք են միմյանց հետ կապ չունեցող ֆրազների կրկնությունը՝ վարպետորեն ղեկավարելով փնտրման համակարգով ինդեքսացված ռեսուրսների կարևորությունը կամ առանձնահատկությունները, այնպիսի ձևով, որ չի համապատասխանում ինդեքսացման համակարգի նպատակին։ Ոմանք դա համարում են որոնման համակարգի օպտիմիզացիայի մասը, չնայած կան շատ որոնման համակարգերի օպտիմիզացման մեթոդներ, որ լավացնում են համացանցային կայքերի բովանդակությունն ու արտաքին տեսքը՝ ծառայելով շատ օգտագործողների համար օգտակար բովանդակությամբ։ Փնտրման համակարգերն օգտագործում են բազմաթիվ ալգորիթմներ՝ որոշելու համար կարևորության չափանիշները։ Դրանց մի մասն ընդգրկում են մի ֆունկցիա, որ թույլ է տալիս որոշել, թե արդյոք փնտրվող բառը հայտնվում է ՄԵՏԱ բանալիների թագում, թե ոչ։ Մյուսները ֆիքսում են այն, թե արդյոք փնտրվող բառը հայտնվում է հիմնական տեքստում կամ համացանցային կայքի հասցեում։ Շատ փնտրման համակարգեր ստուգում են սպամդեքսինգի բաղադրիչներն ու հեռացնում են կասկածելի համացանցային էջերն իրենց ինդեքսներից։ Նաև՝ մարդիկ, որ աշխատում են փնտրման համակարգի օպտիմիզացիայի ուղղությամբ, կարող են արագորեն արգելակել արդյունքում ստացված բազմաթիվ այնպիսի համացանցային կայքերի ցանկերը, որոնք սպամդեքսինգ են օգտագործում։ Սա կարող է կատարվել նաև օգտագործողների բողոքների հիման վրա, կամ սխալ արդյունքներ բերելու դեպքում։ Սպամդեքսինգ-ի աճը 1990-ականների կեսերին շատ առաջատար փնտրման համակարգերի աշխատանքը դարձրեց համեմատաբար պակաս օգտակար։ Google-ի հաջողությունը, թե ավելի լավ փնտրման արդյունքներ ապահովելու, և թե բանալի ֆրազների սպամինգի հաղթահարման գործում, չնայած հեղինակության վրա հիմնված լինկերի հաճախելության վերլուծման համակարգի կիրառմանը, օգնեց նրան դառնալ դոմինանտ փնտրման համակարգ 1990-ականների վերջերին։ Չնայած այն անկարող չի համարվել սպամդեքսինգի առումով, համենայնդեպք Google-ը առանձնապես պատրաստ չէր դիմակայելու ավելի բարդ մեթոդների։ Google-ռմբահարումը փնտրման համակարգի արդյունքների մանիպուլիացիայի մեկ այլ տարբերակ է, որը ներառում է հիպեռ-լինկերի տեղադրումն այնպես, որ դա զդի այլ կայքերի հաճախելիության ցուցանիշների վրա։ Google-ը առաջին անգամ ալգորիթմային առումով հաղթահարեց Google ռմբահարումը 2007 թվականի հունվարի 25-ին։ Սպամդեքսինգի մասին ամենավաղ արված արտահայտությունը պատկանում է Էրիկ Քոնվեյին, “Պոռնոն ետ է սողում դեպի համացանց” իր հոդվածում, որ տպագրվել է “Բոստոն Հերալդ”-ում, 1996 թ. Մայիսի 22-ին։ Այնտեղ մասնավորապես ասվում է.

Խնդիրն առաջանում է այն պահին, երբ կայքերի օպերատորները իրենց կայքերը լցնում են հարյուրավոր ավելորդ բառերով, ինչի պատճառով փնտրման համակարգերը դնում են այդ էջը օրինական հասցեների իրենց ցուցակներում։ Այս պրոցեսը կոչվում է “սպամդեքսինգ”, այսինքն սպամինգի – մարդկանց չպահանջված գովազդային տեղեկություններ ուղարկելու համար օգտագործվող արտահայտություն - ու ինդեքսինգի համադրություն է։

Տարածված սպամդեքսինգի տեխնիկաները կարելի է բաժանել երկու ծավալուն հատվածների՝ բովանդակային սպամ և լինկերի սպամ։

Բովանդակային սպամ[խմբագրել]

Այս տեխնիկաները ներառում են էջի բովանդակության՝ փնտրող համակարգի ունեցած տրամաբանական տեսքի այլընտրանքային արտապատկերումն է։ Դրանց բոլորի նպատակն է վեկտորային տարածության մոդելի տարբերակներ ստեղծելը՝ տեքստերի հավաքածուների տեղեկությունների վերադարձման համար։

Հուշագրերի համալրում[խմբագրել]

Սա ներառում է էջի վրա հուշագրերի հաշվարկված տեղադրում՝ էջի վրա հուշագրերի քանակը, բազմազանությունն ու խտությունը մեծացնելու համար։ Սա կարևոր է, որպեսզի էջը ավելի պատշաճ, համացանցում ներկայանալու արժանի տեսքի գա։ Ինչ որ իմաստով դա էջի գտնվելն ավելի հավանական է դարձնում, օրինակ՝ Փոնզի սխեմայի առաջադրողն ուզում է համացանցում շրջողներին գրավել դեպի մի կայք, որի վրա իր խաբեություններ են տեղադրված և գովազդվում։ Նա տեղադրում է մի հայտնի երաժշտական խմբի մասին նորմալ, սակայն հատուկ ձևով թաքնված տեքստ, հույս ունենալով, որ իր էջը կհայտնվի այլ երկրպագուների էջերի կողքին ու շատ այցելությունների կարժանանա երաժշտասերների կողմից։ Ինդեքսացման ծրագրերի ավելի ուշ տարբերակները պարզապես սկսեցին հաշվարկել, թե որքան հաճախ է հուշագիրը հայտնվում, ու օգտագործեցին այդ՝կարևորության աստիճանը որոշելիս։ Ամենից ժամանակակից ինդեքսացման ծրագրերն ունեն համացանցային-կայքերը վերլուծելու և դրանցում հուշագրերի համալրման աստիճանը որոշելու կարողություն, ինչպես նաև այն, թե դրանց հաճախելիությունը համապատասնանում է այնպիսի այլ էջերի հաճախելիությանը, որոնք ստեղծվել են հենց փնտրման համակարգերի թրաֆիկը գրավելու համար։ Նաև՝ խոշոր կայքերը կրճատվում են, որպեսզի հսկայական բառարանային ցուցակները հնարավոր չլինի մեկ եզակի կայքի վրա։

Թաքնված կամ անտեսանելի՝ առնչություն չունեցող տեքստ[խմբագրել]

Հուշաբառերի ու ֆրազների քողարկումը՝ դրանք ֆոնի հետ միևնույն գույնի դարձնելը, կամ չափազանց փոքր տառատեսակ օգտագործելը, կամ դրանք էյջ-թի-էմ-էլ (HTML) այնպիսի կոդի մեջ թաքցնելը, ինչպիսին է “ոչ մի շրջանակ”-ը, ԱՅԼ ատրիբուտները, զրո-լայնություն/երկարություն DIV-երը, և “ոչ մի սկրիպտ” բաժինները։ Ինչևէ, թաքնված տեքստը ոչ միշտ է սպամդեքսինգ համարվում. Այն կարող է նաև օգտագործվել հասանելիությունը մեծացնելու նպատակով։ Մարդիկ, որ փնտրման համակարգի կազմակերպության համար համացանցային կայք են ցուցադրում, կարող է ժամանակավորապես կամ մշտապես կասեցնեն ողջ կայքը՝ որոշ կայքերի վրա անտեսանելի տեքստ ունենալու նպատակով։

Մետա-թագերի (վերին առանցքի, իդենտիֆիկացիոն բնութագրերով թագեր) համալրում[խմբագրել]

Մետա-թագերում հուշաբառերի կրկնությունը և այնպիսի մետա-հուշաբառերի օգտագործումը, որոնք առնչություն չունեն կայքի բովանդակությանը։ Այս տակտիկան անարդյունավետ դարձավ 2005-ից։

“Դարպասային” կամ դռնային էջեր[խմբագրել]

Ցածրորակ այնպիսի կայքերի ստեղծումը, որոնք շատ փոքրածավալ բովանդակություն են պարունակում, սակայն համալրված են շատ նույնական հուշաբառերով ու ֆրազներով։ Դրանք ստեղծված են փնտրման համակարգերի արդյունքներում բարձր հաճախելիություն ստանալու համար, սակայն տեղեկություններ փնտրող այցելուների համար որևէ նպատակի չեն ծառայում։ Դռնային էջը հիմնականում ունենում է որևէ “սեղմիր այստեղ՝ որպեսզի մուտք գործես” արտահայտությունը առաջին էջին։

Քերող էջեր[խմբագրել]

Քերող էջերը, կամ այլ կերպ ասած՝ Գովազդայնացման Համար Ստեղծված էջերը, ստեղծվում են զանազան ծրագրերի օգտագործմամբ՝ փնտրման համակարգերի արդյունքների էջերը, կամ բովանդակության այլ աղբյուրները “քերելու” համար, որի արդյունքում այդ նույն ծրագրերը նոր կայքի համար “բովանդակություն” են ստեղծում։ Բովանդակության մասնակի մատուցումը այս էջերի վրա ինքնատիպ է թվում, սակայն դա պարզապես տարբեր այլ էջերից հաճախ առանց թույլատվության վերցված բովանդակության միաձուլման արդյունք է։ Այս տիպի կայքերը հիմնականում լիքն են գովազդներով (օրինակ վճարիր-սեղմելով տիպի գովազդներ), կամ վերա-հասցեագրում են օգտագործողին դեպի այլ էջեր։ Այսպիսի քերող էջերը նույնիսկ ընդունակ են հիմնական, սկզբնական կայքերի հաճախելիության ցուցանիշներից ավելին հավաքել իրենց սեփական տեղեկատվության ու կազմակերպության անվան համար։

Կապային սպամ[խմբագրել]

Դեյվիսոնը կապային սպամը (որ ինքն անվանում է “հովանավորչական կապեր”) բնութագրում է որպես “…կապեր, որ առկա են այլ պատճառներով, քան դրանց իրական արժանիքները կենթադրեին”: Կապային սպամն առավելության է հասնում կապա-հիմք խաճախելիության ալգորիթմների շնորհիվ, ինչպիսիք են Google-ի էջի այցելիության գնահատման ալգորիթմը, որ բարձրագույն գնահատական է տալիս կայքերին ըստ այն բանի, թե դրանցից որոնց քանի այլ՝ ավելի բարձր գնահատականներով կայքեր են կապված։ Այս տեխնիկաների նպատակն է նաև ազդել այլ կապա-հիմք գնահատման տեխնիկաների վրա, ինչպիսին է ՀԻԹՍ ալգորիթմը (HITS algorithm)

Կապերի ֆերմաներ[խմբագրել]

Ներառում է միմյանց հիշատակող էջերի սերտորեն փոխկապակցված համայնքների ստեղծում, որ հայտնի են նաև փոխադարձ մեծարման համայնքներ անվամբ։

Թաքնված կապեր[խմբագրել]

Կապերի տեղադրումն այնպիսի տեղերում, որտեղ այցելուները չեն տեսնի դրանք՝ կապերի հաճախելիությունը բարձրացնելու նպատակով։ Շեշտված նշմամբ տեքստը կարող է օգնել կայքին ավելի բարձր գնահատական ստանալ հենց միայն այդ մի ֆրազը կրելու համար։

“Սիբիլլայի հարձակում”[խմբագրել]

Սա բազմաթիվ անձերի պատրանքի ստեղծումն է՝ վնասակար նպատակներով, որ “Սիբիլլայի հարձակում” է կոչվել անձի երկատվածության ախտանիշի պատենտի՝ “Սիբիլլայի” անունով (Շիրլի Արդել Մեյսըն)։ Սպամերը ստեղծում է բազմաթիվ կայքեր՝ տարբեր դոմեյն անվանումների ներքո, որոնք բոլորն էլ կապվում են միմյանց, ինչպես օրինակ կեղծ բլոգները, որոնց նաև “սպամ բլոգներ” են անվանում։

Սպամ բլոգներ[խմբագրել]

Սպամ բլոգները, որ այլ կերպ կոչվում են սպլոգներ, սպամինգի նպատակով ստեղծված կեղծ բլոգներն են։ Դրանք էությամբ նման են կապերի ֆերմաներին։

Էջերի առևանգում[խմբագրել]

Սա կատարվում է որևէ հայտնի կայքի ավազակային կրկնօրինակը ստեղծելով, որի վրա իրական օրինակին շատ նման բովանդակություն է դրվում, սակայն այդ կայքն ի վերջո համացանցում տեղեկություններ փնտրողին ուղղորդում է դեպի վերջինիս հետ կապ չունեցող վնասակար կայքեր։

Ժամկետանց դոմեյններ գնելը[խմբագրել]

Որոշ կապային սպամերներ հետևում են շուտով ժամկետանց դառնալու ենթակա դոմեյնների մասին Դե-էն-էս (DNS) գրանցումներին, ապա գնում են դրանք ու փոխարինում այդ էջերը դեպի իրենց էջերը բերող կապերով. Տես Դոմեյնինգ հոդվածը։ Այնուամենայնիվ, Google-ը նորից շտկում է կապերի տեղեկությունները դեպի ժամկետանց դոմեյնների սկզբնական բովանդակությունը։ Այս տեխնիկաների մի մասը կարող է կիրառվել Google-ռումբ ստեղծելու համար, որն է՝ այլ օգտագործողների հետ համագործակցելով մի կամայական էջի հաճախելիության աստիճանը համատեղ ջանքերով չափազանց բարջրացնելը։

Տվյալների տողերի համալրում(տվյալներ նախկինում տվյալ համացանցային սերվեր օգտագործողի այցելությունների մասին)[խմբագրել]

Սա ներառում է հետևող համագործակից տվյալների տողի ստեղծում օգտագործողի համակարգչում առկա որևէ կայքի վրա, առանց օգտագործողի գիտության։ Այդ տվյալների տողը հետագայում շահույթ է ստեղծում նշված տվյալների տողը տեղադրած անձի համար։ Սա ոչ միայն հանցավոր համագործակցության արդյունք հանդիսացող առևտրին է նպաստում, այլ նաև հնարավորություն է ստեղծում արդեն առկա այլ տվյալների տողերի ջնջում և դրանց տեղում նորերի գրում՝ հատկապես դրանց օրինական ճանապարհով աշխատած ագումարները գողանալով։

Աշխարհագրման ենթակա էջերի օգտագործումը[խմբագրել]

Այն կայքերը, որ կարող են խմբագրվել օգտագործողների կողմից, ինչպիսիք են Վիկիներն ու բլոգները, որոնց վրա կարելի է մեկնաբանություններ թողնել, կարող են օգտագործվել դեպի սպամ կայքեր կապերի տեղադրման համար, եթե հակա-սպամային միջոցները ժամանակին չկիրառվեն։

Սպամը բլոգներում[խմբագրել]

Սա այլ կայքերի վրա կապերի տարերային տեղադրումն է կամ դրանց համառ պարտադրումը զանազան մեթոդներով՝ որևէ ցանկալի հուշաբառ տեղադրելով մուտքի կապի ակտիվացված տեքստի վրա։ Հյուրերի բաժինները, ֆորումները, բլոգներն ու ցանկացած այլ կայքեր, որոնք բաց են այցելուների մեկնաբանությունների համար, հատուկ նշանակետ են հանդիսանում տվյալ դեպքում, և հաճախ ավտոմատ ծրագրերի ստեղծած աբսուրդ մեկնաբանույունների զոհ են դառնում՝ դրանցում տեղադրված կապերի պատճառով, որոնք սովորաբար առնչություն չունեն տվյալ թեմային կամ ցանկալի չեն։

Մակնաբանությունների սպամը[խմբագրել]

Մեկնաբանությունների սպամը կապային սպամի տարատեսակ է, որ ի հայտ է եկել այնպիսի էջերում, որոնք թույլ են տալիս օգտագործողների կողմից դինամիկ խմբագրում, ինչպիսին են Վիկիները, բլոգներն ու հյուրերի բաժինները։ Սա կարող է խնդրահարույց լինել, քանի որ կարող է ստեղծված լինեն լրտեսներ, որոնք ավտոմատ և տարերային կերպով ընտրում են օգտագործողների կողմից խմբագրվող որևէ կայք, օրինակ Վիկիպեդիայի հոդված, և դրա մեջ ավելացնեն սպամային կապեր։

Վիկի սպամ

Օգտագործելով Վիկի համակարգերի բաց խմբագրման ունակությունը՝ Վիկի կայքից դեպի սպամային կայք կապերի տեղադրում Վիկի-ի վրա։ Սպամ կայքի թեման հաճախ որևէ առնչություն չունի Վիկի-ի տվյալ էջի հետ, որի վրա տեղադրվել է սպամային կապը։ 2005 թ.-ի սկզբներին Վիկիպեդիան ներմուծեց մի նոր, հաստատված արժեք “չհետևել” անվանմամբ, այսպես կոչված Ռել Էյջ-Էի-Էմ-Էլ ատրիբուտի (“rel’ HTML Attribute) համար։ Այս ատրիբուտով կապերը արհամարվում են Google-ի էջի գնահատման ալգորիթմի կողմից։ Ֆորոմների ու Վիկիների ադմինիստրատորները կարող են օգտագործել այս ատրիբուտը՝ Վիկի-ի սպամի խաթարման համար։

Հիշատակման լոգերի սպամինգ[խմբագրել]

Երբ որևէ մեկն այցելում է որևէ կայք, տվյալ դեպքում, երրորդ անձը՝ հետևելով մեկ այլ կայքի վրա տեղադրված կապին, նրան արդեն տրամադրում է հիշատակողի կայքի հասցեն՝ իր իսկ համակարգչի համացանցային դիտման ծրագրի կողմից։ Որոշ կայքեր ունեն այնպիսի հիշատակող լոգ, որը ցույց է տալիս, թե որ էջերն են կապված տվյալ կայքի հետ։ Ռոբոտ ունենալով, դրանք տարերայնորեն այցելում են բավականաչափ թվով կայքեր՝ կրելով մի կոնկրետ հասցե պարունակող հաղորդագրություն, որ տրվում է որպես հիշատակող։ Ապա այդ հաղորդագրությունը կամ կայքի հասցեն հայտնվում է այն կայքերի հիշատակող լոգում, որոնք ունեն հիշատակող լոգ։ Քանի որ որոշ փնտրող համակարգեր կայքերի կարևորությունը որոշում են ըստ այն բանի, թե որքան այլ կայքեր են կապված տվյալ կայքին, հիշատակող լոգի սպամը կարող է օգտագործվել՝ ավելացնելու համար փնտրման համակարգերի գնահատականները սպամերների էջերի այցելությունների վերաբերյալ, ինչը կատարվում է մեծաթիվ կայքերի հիշատակող լոգերը միմյանցկապելով։