Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: Pytania dotyczące blokady Google - 403
Forum PHP.pl > Inne > Hydepark
infoo1
1. Na jakiej zasadzie Google uznaje mnie za bota (częstotliwość żądań itp.)?
2. Po ilu żądaniach (jeśli blokada występuje po x ż/h czy coś takiego) Google blokuje mnie i wysyła na http://www.google.com/sorry/ ?
3. Po jakim czasie blokada mija?
4. To już bardziej programistyczne: używam file_get_contents(link do wyszukiwania w google). Da się ominąć tę blokadę (bo curlem chyba można zapisywać cookies do podanego pliku (chyba CURLOPT_COOKIEJAR => nazwa_pliku), a potem ręcznie dopisać do tego pliku ciacho, które dostanę po przepisaniu kodu)?
5. Albo co zrobić, aby Google nie wykryło mojego skryptu?
6. I nie chcę skryptem łamać captchy - dla mnie to niewykonalne, bo w ogóle nie znam GD.
djstrong
Cytat(infoo1 @ 24.01.2009, 16:53:25 ) *
1. Na jakiej zasadzie Google uznaje mnie za bota (częstotliwość żądań itp.)?
2. Po ilu żądaniach (jeśli blokada występuje po x ż/h czy coś takiego) Google blokuje mnie i wysyła na http://www.google.com/sorry/ ?
3. Po jakim czasie blokada mija?
4. To już bardziej programistyczne: używam file_get_contents(link do wyszukiwania w google). Da się ominąć tę blokadę (bo curlem chyba można zapisywać cookies do podanego pliku (chyba CURLOPT_COOKIEJAR => nazwa_pliku), a potem ręcznie dopisać do tego pliku ciacho, które dostanę po przepisaniu kodu)?
5. Albo co zrobić, aby Google nie wykryło mojego skryptu?
6. I nie chcę skryptem łamać captchy - dla mnie to niewykonalne, bo w ogóle nie znam GD.

1. tak, częstotliwość i niepoprawne nagłówki
2. 3. sprawdź i się podziel informacją
4. nie wiem o co chodzi, ale da się edytować cookie.
5. jedyną możliwością jest odpytywanie z różnych ip (choć całkiem możliwe, że częściowo różne nagłówki wystarczą, np. zmieniać przeglądarki i wtedy również ciastka różne przechowywać)
infoo1
Cytat
niepoprawne nagłówki
Jakie i jak je zmienić?
Cytat
sprawdź i się podziel informacją
2. Może około 1500: dla 3 słów kluczowych, pierwsze 1000 wyników (10 zapytań z $_GET['num']=100), odświeżałem stronę podczas robienia skryptu około 50 razy, więc: 3*10*50=1500. Jutro sprawdzę dokładniej (bo jeszcze mam bana ;p): zapamiętam, ile razy odświeżałem stronę. 3. Godzina minęła, ban aktywny. Czekam dalej.
Cytat
nie wiem o co chodzi, ale da się edytować cookie.
Jak wchodzisz skryptem na jakąś stronę, to na tej stronie nie widać cookies z Twojej przeglądarki. CURL'em (setopt) się da, ale cURL'a nie używam, bo mi na localhoście nie działa (nie jest zainstalowany, a wgranie i aktywowanie liba niczego nie zmienia).
Cytat
jedyną możliwością jest odpytywanie z różnych ip (choć całkiem możliwe, że częściowo różne nagłówki wystarczą, np. zmieniać przeglądarki i wtedy również ciastka różne przechowywać)
Inne IP powinno wystarczyć... Następne pytanie: da się skryptem zmienić IP (ale nie przez jakieś proxy, bo bym musiał dać ini_set('max_execution_time',1000000)).
djstrong
Cytat(infoo1 @ 24.01.2009, 17:31:41 ) *
Jakie i jak je zmienić?
2. Może około 1500: dla 3 słów kluczowych, pierwsze 1000 wyników (10 zapytań z $_GET['num']=100), odświeżałem stronę podczas robienia skryptu około 50 razy, więc: 3*10*50=1500. Jutro sprawdzę dokładniej (bo jeszcze mam bana ;p): zapamiętam, ile razy odświeżałem stronę. 3. Godzina minęła, ban aktywny. Czekam dalej.
Jak wchodzisz skryptem na jakąś stronę, to na tej stronie nie widać cookies z Twojej przeglądarki. CURL'em (setopt) się da, ale cURL'a nie używam, bo mi na localhoście nie działa (nie jest zainstalowany, a wgranie i aktywowanie liba niczego nie zmienia).
Inne IP powinno wystarczyć... Następne pytanie: da się skryptem zmienić IP (ale nie przez jakieś proxy, bo bym musiał dać ini_set('max_execution_time',1000000)).

Wszystkie jakie wysyła przeglądarka należałoby zasymulować. Podejrzeć je możesz jakąś wtyczką, np. tamper data dla ff.
Przez fsockopen i file_get_contents da się odczytać zwracane cookie zapewne.
Inne IP na pewno wystarczy, ale ip nie da się w łatwy sposób "zmienić" (programowo się nie da), dlatego podsunąłem pomysł z nagłówkami, które da się łatwo zmieniać. Powinno to działać, albo chociaż zwiększyć możliwy limit.
hwao
Nic na to nie poradzisz, za częste requesty - możesz próbować przez proxy ale to na dłuższa metę i tak nic nie da. Bardzo często też tak się dzieje jak jest się w sieci osiedlowej i dużo osób na jednym IP korzystań z google.

Google zapamiętuje adres IP i częstotliwość pobierania danych przez nie.
djstrong
Cytat(hwao @ 24.01.2009, 22:25:54 ) *
Nic na to nie poradzisz, za częste requesty - możesz próbować przez proxy ale to na dłuższa metę i tak nic nie da. Bardzo często też tak się dzieje jak jest się w sieci osiedlowej i dużo osób na jednym IP korzystań z google.

Google zapamiętuje adres IP i częstotliwość pobierania danych przez nie.

Właśnie z tego powodu (sieci osiedlowych z jednym IP) wywnioskowałem, że powinni blokować nie tylko po samym IP. Powinni to mieć jakoś bardziej liberalnie zrobione. Może będąc zalogowanym na google, limity są przypisywane do konta i mimo wykorzystania "puli" dla adresu IP, osoba zalogowana może nadal korzystać?
ucho
Zalogowanie na konto nie pomaga.
erix
A może by się tak zainteresować Google Search API...?
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.