Blokowanie zbędnych botów
Raz na jakiś czas każdy webmaster ma bliskie spotkanie drugiego stopnia z jakimś botem, który zapętla się na stronie i pożera zasoby w niesamowitym tempie. Większość webmasterów (w tym ja) oczywiście zapomina, że spora część robotów to pasożyty, i że najrozsądniej je zablokować. Do tego służy plik robots.txt. Na tej stronie wklejam kilka podstawowych templatek tego pliku – za każdym razem, przyznaję, muszę szukać tego od nowa… Może komuś się również przyda.
Blokada totalna – żaden bot respektujący plik robots.txt się nie przeciśnie:
User-agent: *
Disallow: /
Wersja “googielofilna” – dostęp tylko dla botów googiela:
User-agent: Googlebot
Allow: /User-agent: *
Disallow: /
Strona po polsku i głównie dla Polaków – blokuje wszystko z wyjątkiem głównego bota Googiela, Szukajki Onetu i NetSprint:
User-agent: Googlebot
User-agent: holmes
User-agent: NetSprint
Disallow:User-agent: *
Disallow: /
Strona głównie dla rynków zachodnich:
User-agent: Googlebot
User-agent: Slurp
User-agent: msnbot
Disallow:User-agent: *
Disallow: /
Przy okazji, dziękuję Panu Robertowi Sadowskiemu z NetSprint oraz Redakcji OnetSzukaj za pomoc. Proponuję również, żeby takie informacje umieszczać w dziale FAQ swojej wyszukiwarki…
___
Menu:
Blokada totalna
Tylko Google
Tylko polskie
Tylko zachodnie
Szukajka
Ilość komentarzy: 8
Eddy napisał(a):
Rozwiązanie oparte o robots.txt jest mało skuteczne, bo te prawdziwe pasożyty nie interpretują tych reguł, więc te trzeba blokować całkowicie, np. w pliku .htaccess
mendax napisał(a):
Tych naprawdę najgorszych botów to nawet przez htaccess się nie zablokuje (umieją udawać normalną przeglądarkę); nawet metoda z mierzeniem czasu między kolejnymi wywołaniami stron nie zawsze skutkuje (a jest mocno zasobożerna).
robots.txt to najprostszy sposób na ograniczenie chociaż najpopularniejszych “pasożytów”.
Co zrobić w czasie modernizacji strony? | Fabryka Spamu napisał(a):
[...] możliwym wyjściem jest tymczasowe utworzenie pliku robots.txt, w którym umieszcza się blokadę botów. Niestety byłoby to gorsze nawet od jakiegokolwiek błędu na stronie. Na szczęście z pomocą [...]
pajmon. do diabła. » Blog Archive » Dwa słowa o Wikipediach. napisał(a):
[...] update po kilku dniach: formułka jaką proponuje Mendax na blogu Fabrykaspamu.pl nie działa. Robot onetu “Holmes” dalej wchodzi na moje wikipedie i dalej zjada transfer. Fakt, że [...]
kl napisał(a):
Można blokować po IP, np. http:BL rozstawia w sieci pułapki na boty nie respektujące robots.txt i udostępnia blokowaczkę do Apache (mod_httpbl)
Prościej można czarną listą http://sblam.com/czarnalista.html – kilkanaście tysięcy ip. może kropka w morzu, ale zawsze coś.
Zen Vantalye napisał(a):
Albo można by spróbować na jakimś algorytmie typu:
+1 pkt że bot jeśli:
-nie pobiera favicona
-pobiera robots.txt
-1 pkt że człowiek jeśli:
-pobiera wszystkie elementy(obrazki,js)
-interpretuję js.
Na koniec miesiąca łapać sobie te IP które są według algorytmu botami oraz robią sporo zapytań żeby nie blokować użytkowników przeglądarek tekstowych i po problemie.
Paweł napisał(a):
Witam, mam pytanie: odwiedza mnie bot:
“DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)”
i generuje transfer 8krotnie większy niż zwykły Googlebot.
Jak ma wyglądać plik robots.txt, który zablokuje wszyskie boty poza, botami yahoo i google, jednocześnie blokując tego bota?
pozdrawiam Paweł
- Fabryka Spamu wykorzystuje zmodyfikowaną skórkę Lemon Twist. Blog na licencji CC by-nc-sa v.3 więcej...
- Do góry...
- Główna



Zostaw komentarz-