Anonim

Es pārvaldu klienta vietni, kurā viņi parāda lielu datu bāzi ar informāciju, kuru gadu gaitā viņi ir precīzi un lēnām apkopojuši. Viņi atrod savus datus tīmeklī dažādās vietās. Vairāk nekā iespējams, tas ir saistīts ar to, ka skrāpis apmeklē savas vietnes lapu pa lapām un nepieciešamo informāciju iegūst savā datu bāzē. Un, ja jums rodas jautājums, viņi zina, ka tie ir viņu dati, jo viņu vietnes katrā kategorijā ir viens atsevišķs datu gabals.

Pēdējo pāris dienu laikā šajā sakarā esmu izdarījis daudz pētījumu, un es varu jums pateikt, ka nav ideāla visaptveroša risinājuma. Es esmu atradis vairākas lietas, kas jādara, lai padarītu to nedaudz grūtāku. To es realizēju klientam.

Ajaxificēti paginēti dati

Ja jums ir daudz paginificētu datu un jūs paglaudējat savus datus, sava URL beigām vienkārši pievienojot citu numuru, ti, http://www.domain.com/category/programming/2 - tad jūs veidojat kāpurķēžu darbs ir daudz vienkāršāks. Pirmā problēma ir tā, ka tā ir viegli identificējama, tāpēc skrāpi ir viegli iestatīt šajās lapās kā pīrāgu. Otrkārt, neatkarīgi no kategorijas nākamo lapu vietrāžiem URL, visticamāk, būs nākamā un iepriekšējā saite, kurai tās piestiprināties.

Iekraujot paginificētus datus, izmantojot javascript, bez lapas atkārtotas ielādes, tas ievērojami sarežģī daudzu skrāpju darbu. Google tikai nesen pats sāka parsēt javascript lapā. Datu atkārtotai ielādēšanai ir maz trūkumu. Jūs sniedzat dažas mazāk Google lapas, lai tās varētu indeksēt, taču, ņemot vērā tehnisko paņēmienu, visiem ar atsauci uz saknes kategorijas lapu, izmantojot kanonizāciju, tomēr vajadzētu būt norādītam. Ajaxificējiet savas lapu lapas.

Izlases veida izlaide

Skrēperi bieži tiek nedaudz pielāgoti tieši jūsu datiem. Viņi pieslēgsies noteiktam nosaukuma div ID vai klasei, trešajai šūnai katrā aprakstā jūsu rindā utt. Lielākajai daļai skrāpju ir viegli identificējams modelis, kas strādā ar lielāko daļu datu, kas nāk no tās pašas tabulas, tiek parādīts ar to pašu veidni. Nejauši sadaliet savas divdimensiju klases un klases nosaukumus, pēc nejaušības principa ievietojiet tukšas tabulas kolonnas ar 0 platumu. Rādiet savus datus tabulā vienā lappusē ar dalītu stilu un citas veidnes kombināciju. Sniedzot savus datus paredzami, tos var nokasīt paredzami un precīzi.

Medus pods

Tas ir diezgan veikls savā vienkāršībā. Esmu saskāries ar šo metodi vairākās lappusēs par vietņu nokasīšanas novēršanu.

  • Izveidojiet uz servera jaunu failu ar nosaukumu gotcha.html.
  • Savā failā robots.txt pievienojiet:
    Lietotāja aģents: *
    Neatļaut: /gotcha.html

    Tas visiem robotiem un zirnekļiem liek indeksēt jūsu vietni, lai netiktu indeksēts fails gotcha.html. Ikviens parasts tīmekļa rāpuļprogramma ņems vērā jūsu robots.txt faila vēlmes un nepiekļūs šim failam. ti, Google un Bing. Jūs, iespējams, vēlēsities veikt šo darbību un pirms pārejat pie nākamās darbības, pagaidiet 24 stundas. Tas nodrošinās to, ka rāpuļprogramma jūs nejauši netiks bloķēta tāpēc, ka, atjaunojot failu robots.txt, tas jau bija rāpuļprogrammas vidusdaļa.
  • Ievietojiet saiti uz gotcha.html kaut kur savā vietnē. Nav svarīgi kur. Es ieteiktu kājenē tomēr pārliecināties, ka šī saite nav redzama CSS, displejā: nav;
  • Tagad reģistrējiet IP / vispārīgo informāciju perp, kas apmeklēja šo lapu, un bloķējiet tos. Alternatīvi, jūs varētu nākt klajā ar skriptu, lai sniegtu viņiem nepareizus un atkritumu datus. Vai varbūt jauks personīgs vēstījums no jums viņiem.

Parastie tīmekļa skatītāji šo saiti nevarēs redzēt, tāpēc tā nejauši netiks noklikšķināta. Cienījamie rāpuļprogrammas (piemēram, Google) ņems vērā jūsu robots.txt vēlmes un neapmeklēs failu. Tātad vienīgie datori, kuriem vajadzētu paklupt pāri šai lapai, ir tie, kuriem ir ļaunprātīgi nodomi, vai arī kāds skata jūsu avota kodu un nejauši noklikšķina apkārt (un ak, labi, ja tas notiek).

Ir daži iemesli, kas ne vienmēr var darboties. Pirmkārt, daudz skrāpju nefunkcionē kā parasti tīmekļa rāpuļprogrammas, un ne tikai atklāj datus, sekojot katrai saitei no katras jūsu vietnes lapas. Skrēperi bieži tiek būvēti, lai fiksētos noteiktās lapās un ievērotu tikai noteiktas struktūras. Piemēram, kategoriju lapā var sākt skreperu un pēc tam likt apmeklēt tikai vietrāžus URL, kuru vārds / dati atrodas plēksnē. Otrkārt, ja kāds skrāpi darbojas tajā pašā tīklā kā citi un tiek izmantots koplietots IP, jums būs jāaizliedz viss tīkls. Jums tiešām vajadzētu būt ļoti populārai vietnei, lai tā būtu problēma.

Rakstiet datus attēliem lidojuma laikā

Atrodiet mazāku datu lauku, ne vienmēr garas teksta virknes, jo tas var nedaudz sarežģīt lapas veidošanu. Izvadot šos datus attēlā, es jūtos diezgan pārliecināts, ka gandrīz katrā programmēšanas valodā ir metodes, kā dinamiski rakstīt tekstu uz attēlu (php, imagettftext). Tas, iespējams, ir visefektīvākais, izmantojot skaitliskās vērtības, jo skaitļi sniedz daudz nenozīmīgākas SEO priekšrocības.

Alternatīva

Šis nebija šī projekta risinājums. Pieprasījums pēc pieteikšanās pēc noteikta lappušu skata vai ierobežota datu daudzuma parādīšana bez pierakstīšanās. Ti, ja jums ir 10 slejas, parādiet tikai 5 lietotājiem, kas nav pieteikušies.

Neveiciet šo kļūdu

Neuztraucieties mēģināt nākt klajā ar kaut kādu risinājumu, kura pamatā ir robotprogrammatūras lietotāja aģents. Skrāpis, kurš zina, ko viņi dara, šo informāciju var viegli sabojāt. Piemēram, google bot var viegli atdarināt. Vairāk nekā iespējams, ka nevēlaties aizliegt Google.

Vietnes nokasīšanas novēršana