Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: "namierzenie" wyszukiwarki
Forum PHP.pl > Forum > Przedszkole
pf
Czy jest jakaś możliwość sprawdzenia, czy "osoba" wchodząca na stronę to wyszukiwarka?
Wiem, że niektóre wyszukiwarki zostawiają ślad w $HTTP_USER_AGENT, np.:
Googlebot/2.1 (+http://www.google.com/bot.html)
ale czy wszystkie? Może jest jakiś inny sposób?
rogrog
podawanie innych stron wyszukiwarkom a innych zwyklym uzykownikom - takie techniki sa niebezpieczne: np. Google podobno robi tak, że indeksuje strony przedstawiajac sie jako googlebot, ale sprawdza je również podszywajac sie pod zwykle przegladarki, i jesli wykryje znaczne roznice to tracisz w wynikach wyszukiwania.
pf
Konkretnie chodzi mi o taką sprawę:
mam ranking stron, na które głosuje się po kliknięciu na baner na stronie, na którą się głosuje (zwykła toplista).
I chciałbym zabezpieczyć jakoś skrypt, żeby nie przyjmował głosów "oddanych" przez wyszukiwarki. Czyli jak robot indeksuje strony, to te które są indeksowane częściej mają sztuczną liczbę głosów na topliście...
hwao
  1. <?php
  2. if(preg_match('/(lycos|googlebot|slurp@inktomi|ask jeeves|whatuseek|ia_archiver)/i', $browser))
  3. ?>

Fragment pochodzi z http://webcity.pl/webcity/artykuly.php/t/55

Nie zakazuj botom wyszukiwarek wchodzi na Twoja topliste tylko poprostu nie zliczaj ich "klikniec" ( przed dodanie +1 do glosu poprostu sprwdz user agneta czy to nie bot jak bot do nie dodawaj klikniecia)

Cytat(http://en.wikipedia.org/wiki/User_agent)
Bots:
    * Crawler for Ask Jeeves/Teoma: Mozilla/2.0 (compatible; Ask Jeeves/Teoma)
    * Googlebot: Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    * Grub: Mozilla/4.0 (compatible; grub-client-1.4.3; Crawl your own stuff with http://grub.org)
    * MSN bot: msnbot/0.11 (+http://search.msn.com/msnbot.htm)
    * wget: Wget/1.9
    * Yahoo! Slurp: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
yavaho
A jak wykryc bota InfoSeek z Onetu i NetSprint z WP ?
dr_bonzo
Netsprint pojawia sie pod kilkoma nazwami:
http://www.kki.pl/kki/statystyka/agent_200205.html
http://forum.optymalizacja.com/ftopic11.html

Przeszukaj neta: googlebot netsprint infoseek -- i dojdziesz do takich listingow statystyk.
A na oficjalnych stronach nie znalazlem zadnego info (moze jest trudniej dostepne -- nie szukalem dlugo)
Radarek
Tez kiedys sie zastanawialem nad tym gdzie wlaza i co robia przegladarki. Mysle ze jest na to sposob. Po pierwsze bodajze w katalogu glownym strony umieszcza sie plik 'robots.txt', w ktorym zapisuje sie podkatalogi do ktorych nie rzyczymy sobie aby boty wchodzily. Jesli boty sa uczciwe to beda przestrzegac regul zapisanych w tym pliku (pierwszy lepszy link do opisu http://www.searchengineworld.com/robots/robots_tutorial.htm).
Jesli jednak tak nie jest mozna troche pokombinowac. Pozwolcie ze bede glosno myslec, bo nie jestem tego pewien ale na logike to powinno dzialac winksmiley.jpg. Po pierwsze mozna umiescic jakis button i dopiero jak sie go nacisnie to przekieruje nas na wlasciwa strone. Jesli boty radza sobie z buttonami to mozna np zrobic przepisywanie kodu wyswietlonego nad polem tekstowym [sprawdzenie czy kod sie zgadza itp]. Wiadomo ze przepisywanie nie jest wygodne wiec hm.. moznaby sobie pomoc javascriptem [tylko ze akurat nie wiem czy boty wykonuaj go czy nie?] i zrobic link po nacisnieciu ktorego js bedzie przekierowywac. Ew. zrobic prosty button we flashu [ktorego akurat boty nie maja szansa interpretowac]. Hm to takie luzne pomyslunki moje wiec mozna sie nad tym bardziej zastanowic winksmiley.jpg.
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.