Forum PHP.pl > Wyciągnięcie czegoś od google

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Wyciągnięcie czegoś od google

chomiczek

3.03.2006, 11:08:39

Witam, nie zastanawiam się czy sie da, bo zapewne sie da, ale jak.
Potrzebuje zasymulować pytanie do googla, a linki, które dostanę chciałbym zapisać sobie czy to do pliku czy to do bazy.. Pytanie tylko jak?
CURL

w zapytaniu, o które mi chodzi otrzymuje ok 400tys wyników :/

Może ktos robił cos takiego?

lisu

3.03.2006, 11:26:21

tak, uzyj curl. Zobacz jakie opcje sa do stronicowania i w petli pobieraj zapytanie oraz oczywiscie zmieniaj offset. Pozniej preg_match_all i wyciagasz linki

chomiczek

3.03.2006, 11:29:18

qrcze cos mi nie działa preg_match_all

[PHP] pobierz, plaintext 
<?php
preg_match_all("/<p class=g>.*href=\"http:\/\/(.)\">.*<\/a><table/Us", $data, $matches);
?>
[PHP] pobierz, plaintext

i nie wiem czemu? faza taka istnieje w wynikach i powinno być min. 10par.. a w tej chwili jak użyje

[PHP] pobierz, plaintext 
<?php
echo count($matches);
?>
[PHP] pobierz, plaintext

to mi zwróci 2

natomiast takie wywołania:

[PHP] pobierz, plaintext 
<?php
for($i=0; $i<count($matches[0]); $i++) {
	echo 'x';
}
?>
[PHP] pobierz, plaintext

nie zwraca mi nic. Wnioskuje, że bład jest w [preg_match_all
tylko gdzie?
Aha zmienna $data przechowuje zawartość strony wpisaną poleceniem:

[PHP] pobierz, plaintext 
<?php
$data=curl_exec($ch);
?>
[PHP] pobierz, plaintext

więc nie powinno byc problemu.. nie powinno ale jednak jest.

lisu

3.03.2006, 15:35:06

pobaw sie:

[PHP] pobierz, plaintext 
<?php
print_r($matches)
?>
[PHP] pobierz, plaintext

i w stringu do funkcji preg_match_all pokombinuj z nawiasami, u mnie dziala np takie cos:

[PHP] pobierz, plaintext 
<?php
preg_match_all("(<li>(<a href=\"(.*?)\">(.*?)<\/a>))",$data,$links);
?>
[PHP] pobierz, plaintext

chomiczek

3.03.2006, 16:05:16

Hmm.. piszesz, że u Ciebie działa takie coś:

[PHP] pobierz, plaintext 
<?php
preg_match_all("(<li>(<a href=\"(.*?)\">(.*?)<\/a>))",$data,$links);
?>
[PHP] pobierz, plaintext

u mnie nie działa :/ i niechodzi tutaj o zmienne :/
qrcze nie mam pomysłu.

lisu

3.03.2006, 16:15:22

hmm, u mnie dziala ale do wyciagania z innego serwisu. Musisz ten string poprawic sam

dr_bonzo

3.03.2006, 16:15:49

Za takie cos google podobno banuje.

A google API? http://www.google.com/apis/

chomiczek

3.03.2006, 16:28:15

ale co banują

Przecież jeśli w CURLu sie ładnie przestawie to będzie chyba ok, np;

[PHP] pobierz, plaintext 
<?php
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1");
?>
[PHP] pobierz, plaintext

to chyba nie będzie problemu, bo co google ma zbanować.
Niezmienia to faktu, że ciągle mam puste tablice (niewiedziec czemu)

dtb

3.03.2006, 17:14:45

http://forum.php.pl/index.php?showtopic=40270 - 3 post - masz tam jak wyniki z google przedstawic jako xml

chomiczek

8.03.2006, 14:07:20

poradziłem sobie, ale mam problem teraz z CURL_PROXY szukam w necie i nie wiem jak ustawić, zeby mi sie dobrze łączył.. póki co zwraca mi wyniki, ale po którym przeładowaniu strony blokują mi serwer :/

jacek14

11.05.2006, 12:47:29

Cytat(dr_bonzo @ 2006-03-03 16:15:49)

Za takie cos google podobno banuje.

nie wiecie przypadkiem czy inne wyszukiwarki ( w tym polskie) tez banuja za takie wydzieranie danych?

Diabl0

11.05.2006, 14:05:39

A nie lepiej/szybciej/wygodniej/zgodnie z intencją właścicieli Google będzie wykorzystać Web services? http://www.google.com/apis/

wieja

12.05.2006, 09:19:28

Cytat(chomiczek @ 2006-03-08 13:07:20)

ale po którym przeładowaniu strony blokują mi serwer :/

Nikt niewie "po ilu" googlarka zablokuje, generalnie zasada jest taka ze zablokuje jak sie "wqrzy" ze interface dla userów jest wykorzystywany przez skrypt/robota.
Jesli w skrypcie zasymulujesz naturalną aktywność ludzką to mysle ze mozesz spokojnie dziennie kilkadziesiąt fraz przeszukiwać, a jesli potzreba Ci wiecej to lepiej sie wspomoc jakimiś serwerkami z innymi IP
Co do SEO to tu jest kopalnia wiedzy
forum.optymalizacja.com/

chomiczek

14.05.2006, 15:49:25

Temat rozwiązałem już dawno, ale widzę, że ktoś odświeża temat.. Ogólnie zastosowałem CURLa i serwer proxy.. spokojnie dochodzę do ok. 100zapytań na dobę..
Mam jednak pytanie w kwestii googla.. da się wyciągnąc pozycję > 1000??

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.