Forum PHP.pl > [PHP]przeszukiwanie strony

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [PHP]przeszukiwanie strony

Cromwell

21.09.2009, 17:44:44

Potrzebuję dwóch rzeczy.

Pierwsza to funkcje, dzięki którym będę mógł znaleźć określone elementy na stronie, znajdujące się w odpowiednich blokach.
Na przykład w kodzie źródłowym większej strony mamy kilka razy powtórzone

Kod

Zależy mi na wyłuskaniu tych linków, przy czym tylko tych, które są po znaczniku nagłówka (a sam nagłówek może się pojawić kilka razy na stronie i zawsze pod nim są linki).
Próbowałem znaleźć coś w manualu, szukałem w funkcjach preg_*, jednak na nic nie trafiłem.

Druga rzecz - chcę, aby po wyłuskaniu danego linku, skrypt wszedł na stronę w nim podaną i znalazł tam kolejne dane. Myślałem nad tym, aby pobierać dane strony i zapisywać je w tablicy, jednak nie wydaje mi się to ładnym rozwiązaniem.
Można prosić o naprowadzenie?

Wicepsik

21.09.2009, 18:13:38

Wyrażenia regularne

Suh

21.09.2009, 20:51:56

Ad. 1. preg_match + wyrażenia regularne (jak napisał kolega wyżej).
Ad. 2. file_get_contents i jako argument podajesz stronę, której zawartość chcesz pobrać, a dalej to tak jak w ad. 1.

Pozdrawiam

Cromwell

22.09.2009, 21:16:21

Dobrze, teraz mam taki kod

[PHP] pobierz, plaintext 
<form action="qq.php" method='get'>
<input type='text' name='search' />
<input type='submit' value='szukaj' />
</form>
 
<?
$search = $_GET['search']; // slowo pobrane z formularz
 
if (!$search)
echo 'podaj slowo';
else { 
$link = file_get_contents("http://www.google.pl/search?q=$search");
preg_match('/href="(.*)" class/', $link, $match);
echo "$match";
}
?>
[PHP] pobierz, plaintext

Jednak zwraca mi pustą tablicę, zupełnie bez wyników. Podejrzewam, że coś źle ustawiłem z wyrażeniami regularnymi, jednak nie wiem co..

Suh

22.09.2009, 22:17:43

Spróbuj takie coś.
Zamień swój preg_match na to :

[PHP] pobierz, plaintext 
preg_match_all('|href="(.{0,100})" class=l|U', $link, $match, PREG_SET_ORDER);
[PHP] pobierz, plaintext

PS. Dałem tam ograniczenie do 100 znaków. U mnie wszystkie poprawne linki zbierało, a bez tego ograniczenia dużo syfu było.

Edit.
Oczywiście wyświetl sobie wynik var_dump($match);

Cromwell

23.09.2009, 09:59:37

guzik. Nadal nie działa, wyświetla pustą tablicę. Zmieniłem tak jak powiedziałeś na

[PHP] pobierz, plaintext 
else { 
$link = file_get_contents("http://www.google.pl/search?q=$search");
preg_match_all('|href="(.{0,100})" class=l|U', $link, $match, PREG_SET_ORDER);
var_dump($match);
}
[PHP] pobierz, plaintext

jednak zamiast tablicy z linkami dostaję tylko array(0) { }

Suh

23.09.2009, 12:03:03

No to ciekawe, bo skopiowałem to co powyżej wkleiłeś i u mnie działa.
Spróbuj dać hasło do wyszukiwania na sztywno, zobacz co się wyświetli jak dasz echo $link;
Popróbuj - gdyby mi to nie działało to bym Ci nie odpisał.

Cromwell

23.09.2009, 12:58:58

Sam nie wiem. Wydaje się, że wszystko w porządku. Kod aktualnie wygląda tak

[PHP] pobierz, plaintext 
<form action="qq.php" method='get'>
<input type='text' name='search' />
<input type='submit' value='szukaj' />
</form>
 
<?
$search = $_GET['search']; // slowo pobrane z formularza
 
if (!$search)
echo 'podaj slowo';
else { 
$link = file_get_contents("http://www.google.pl/search?q=$search");
preg_match_all('|href="(.{0,100})" class=l|U', $link, $match, PREG_SET_ORDER);
var_dump($match);
}
?>
[PHP] pobierz, plaintext

I cały czas dostaję array(0).
Sprawdzałem na dwóch serwerach, efekt ten sam.
Co ciekawe - jeśli po linijce ze zmienną $link dam echo "$link", to dostanę w odpowiedzi stronę 403 google.
Jeśli zamiast linku google podam jakąś inną stronę, wtedy listuje mi linki.
Dodatkowo, jeśli w firefoxie wpiszę w formularzu np 'test', to zamiast przeładowania się strony, przenosi mnie na stronę hxxp://today-newday.cn/in.cgi?6&parameter=newday . Która jest blokowana przez google. W operze nic takiego się nie dzieje, przeładowuje normalnie.

Okazało się, że serwer jest prawdopodobnie banowany w google i dlatego nie ma wyników.
Prawdopodobnie, gdyby nie to, znacznie szybciej doszedłbym do rozwiązania problemu. Cóż, bywa..

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.