Fabryka Spamu

Blokowanie zbędnych botów

  • Opublikowano: 24 sierpień 2007
  • |
  • Autor: mendax
  • |
  • Kategoria: Poradniki,Skrypty

Raz na jakiś czas każdy webmaster ma bliskie spotkanie drugiego stopnia z jakimś botem, który zapętla się na stronie i pożera zasoby w niesamowitym tempie. Większość webmasterów (w tym ja) oczywiście zapomina, że spora część robotów to pasożyty, i że najrozsądniej je zablokować. Do tego służy plik robots.txt. Na tej stronie wklejam kilka podstawowych templatek tego pliku – za każdym razem, przyznaję, muszę szukać tego od nowa… Może komuś się również przyda.

Blokada totalna – żaden bot respektujący plik robots.txt się nie przeciśnie:

User-agent: *
Disallow: /

Wersja “googielofilna” – dostęp tylko dla botów googiela:

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

Strona po polsku i głównie dla Polaków – blokuje wszystko z wyjątkiem głównego bota Googiela, Szukajki Onetu i NetSprint:

User-agent: Googlebot
User-agent: holmes
User-agent: NetSprint
Disallow:

User-agent: *
Disallow: /

Strona głównie dla rynków zachodnich:

User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot
Disallow:

User-agent: *
Disallow: /

Przy okazji, dziękuję Panu Robertowi Sadowskiemu z NetSprint oraz Redakcji OnetSzukaj za pomoc. Proponuję również, żeby takie informacje umieszczać w dziale FAQ swojej wyszukiwarki…
___

Menu:
Blokada totalna
Tylko Google
Tylko polskie
Tylko zachodnie

Przeczytaj również:
  • (8) komentarzy
  • RSS 2.0
  • Delicious bookmark
  • Elefanta.pl
  • Youbookmars
  •  

Subskrybcja

  • Kanał RSS

Ilość komentarzy: 8

Eddy - Gravatar

Eddy napisał(a):

Rozwiązanie oparte o robots.txt jest mało skuteczne, bo te prawdziwe pasożyty nie interpretują tych reguł, więc te trzeba blokować całkowicie, np. w pliku .htaccess
:)

Dnia: 24.08.2007 o godz. 15:29Cytuj ten komentarz
mendax - Gravatar

mendax napisał(a):

Tych naprawdę najgorszych botów to nawet przez htaccess się nie zablokuje (umieją udawać normalną przeglądarkę); nawet metoda z mierzeniem czasu między kolejnymi wywołaniami stron nie zawsze skutkuje (a jest mocno zasobożerna).

robots.txt to najprostszy sposób na ograniczenie chociaż najpopularniejszych “pasożytów”.

Dnia: 24.08.2007 o godz. 15:46Cytuj ten komentarz
Kornel - Gravatar

Kornel napisał(a):

Każde rozwiązanie jest nieskuteczne, jeżeli znajdzie się pasożyt “z głową”.

Dnia: 24.08.2007 o godz. 15:48Cytuj ten komentarz
Co zrobić w czasie modernizacji strony? | Fabryka Spamu - Gravatar

Co zrobić w czasie modernizacji strony? | Fabryka Spamu napisał(a):

[...] możliwym wyjściem jest tymczasowe utworzenie pliku robots.txt, w którym umieszcza się blokadę botów. Niestety byłoby to gorsze nawet od jakiegokolwiek błędu na stronie. Na szczęście z pomocą [...]

Dnia: 11.12.2007 o godz. 14:43Cytuj ten komentarz
pajmon. do diabła. » Blog Archive » Dwa słowa o Wikipediach. - Gravatar

pajmon. do diabła. » Blog Archive » Dwa słowa o Wikipediach. napisał(a):

[...] update po kilku dniach: formułka jaką proponuje Mendax na blogu Fabrykaspamu.pl nie działa. Robot onetu “Holmes” dalej wchodzi na moje wikipedie i dalej zjada transfer. Fakt, że [...]

Dnia: 11.02.2008 o godz. 15:04Cytuj ten komentarz
kl - Gravatar

kl napisał(a):

Można blokować po IP, np. http:BL rozstawia w sieci pułapki na boty nie respektujące robots.txt i udostępnia blokowaczkę do Apache (mod_httpbl)

Prościej można czarną listą http://sblam.com/czarnalista.html – kilkanaście tysięcy ip. może kropka w morzu, ale zawsze coś.

Dnia: 08.05.2008 o godz. 00:20Cytuj ten komentarz
Zen Vantalye - Gravatar

Zen Vantalye napisał(a):

Albo można by spróbować na jakimś algorytmie typu:
+1 pkt że bot jeśli:
-nie pobiera favicona
-pobiera robots.txt
-1 pkt że człowiek jeśli:
-pobiera wszystkie elementy(obrazki,js)
-interpretuję js.
Na koniec miesiąca łapać sobie te IP które są według algorytmu botami oraz robią sporo zapytań żeby nie blokować użytkowników przeglądarek tekstowych i po problemie.

Dnia: 20.06.2008 o godz. 12:06Cytuj ten komentarz
Paweł - Gravatar

Paweł napisał(a):

Witam, mam pytanie: odwiedza mnie bot:
“DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)”
i generuje transfer 8krotnie większy niż zwykły Googlebot.
Jak ma wyglądać plik robots.txt, który zablokuje wszyskie boty poza, botami yahoo i google, jednocześnie blokując tego bota?
pozdrawiam Paweł

Dnia: 20.12.2008 o godz. 16:38Cytuj ten komentarz


Zostaw komentarz-

Zasady komentowania: przed umieszczeniem swojego komentarza zapoznaj się z zasadami.

Możesz użyć następujące tagi: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

Pola oznaczone "*" są wymagane.