Forum PHP.pl > [PHP] preg_match_all jak obrobić wyniki

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [PHP] preg_match_all jak obrobić wyniki

amii

26.07.2010, 13:41:15

Mam taką funkcję, która korzystając z wyszukiwarki wydobywa adresy URL, niestety nie wiem jak się dostać do wyników zwróconych z print_r($matches) tam wyświetla się 100 rekordów

[PHP] pobierz, plaintext 
function href()  {   
$pusta = array();
$licznik = 0;
for ($a=0; $a<101; $a+=10)  {
$url1 = 'http://blogsearch.google.com/blogsearch?hl=en&ie=UTF-8&q=przykladowe+zapytanie&btnG=Search+Blogsi&sa=N&start='.$a;   //robimy petelke dla pierwszych 100 stron
$zawartosc = file_get_contents($url1); 
$pattern = '/<font size=-1><a class=f1 href="(.*)" id="pb-[0-9]"/i';
$ile = preg_match_all($pattern, $zawartosc, $matches);  //w $ile przechowujemy ilosc dopasowan
 
 
 
$pusta[$licznik] = substr($matches[0][0], (strpos($matches[0][0], 'href="')+6), (strpos($matches[0][0], 'id="pb')-34));   //wydobywamy wlasciwy adres url
$licznik++;   
}
 
 
for ($k=0; $k<count($pusta); $k++)  echo 'Dopasowanie : ' . $pusta[$k] . '<br>';   /wyswietla tylko 10 rekordow pierwsze pobrane z kazdej strony
}
[PHP] pobierz, plaintext

everth

26.07.2010, 14:10:28

Może coś takiego, nie daję gwarancji że zadziała:

[PHP] pobierz, plaintext 
function href()  {
	$result = array();
	$doc = new DOMDocument();
	$xpath = new DOMXPath($doc);
 
	$url1 = 'http://blogsearch.google.com/blogsearch?hl=en&ie=UTF-8&q=przykladowe+zapytanie&btnG=Search+Blogsi&sa=N&start=';
 
	for ($a=0; $a<101; $a+=10)  { //dla mnie to petla dla 10 stron, ale co tam ;)
		$url1 .= $a;   //robimy petelke dla pierwszych 100 stron
		$doc->loadHTMLFile($url1);
		$links = $xpath->query("//a[@class='f1' and starts-with(@id, 'pb-')]"); //znajdź elementy a o klasie f1 i id zaczynającym się od pb-
 
		$limes = (count($links)<10) ? count($links):10; //ustalamy granice dla 10 rekordow lub mniej (gdy linkow jest mniej
 
		for ($k=0; $k<$limes; $k++)  {
			$href = $links->item($k)->getAttribute('href'); // nasz link
			$result[] = $href;
			echo 'Dopasowanie : ' . $href . '<br>';   //wyswietla tylko 10 rekordow pierwsze pobrane z kazdej strony
		}
 
	}
 return $result;
}
[PHP] pobierz, plaintext

amii

27.07.2010, 08:40:44

Trochę pozmieniałem. Ale nadal wyskakuje coś takiego i nic nie zwraca -> http://serwisosmoz.eu/index1.php

[PHP] pobierz, plaintext 
function href()  {
	$result = array();
	$doc = new DOMDocument();
	$xpath = new DOMXPath($doc);
 
 
	for ($a=0; $a<101; $a+=10)  { //dla mnie to petla dla 10 stron, ale co tam ;)
 
 
  $url1 = 'http://blogsearch.google.com/blogsearch?hl=en&ie=UTF-8&q=przykladowe+zapytanie&btnG=Search+Blogsi&sa=N&start='.$a;
  echo 'url to : ' . $url1;
 
		$doc->loadHTMLFile($url1);
		$links = $xpath->query("//a[@class='f1' and starts-with(@id, 'pb-')]"); //znajdź elementy a o klasie f1 i id zaczynającym się od pb-
 
		$limes = (count($links)<10) ? count($links):10; //ustalamy granice dla 10 rekordow lub mniej (gdy linkow jest mniej
 
		for ($k=0; $k<$limes; $k++)  {
			$href = $links->item($k); // nasz link
			if ($href != null) $href->getAttribute('href');   //tu wczesniej wyskakiwał blad  -> Call to a member function getAttribute() on a non-object
			$result[] = $href;
			echo 'Dopasowanie : ' . $href . '<br>';   //wyswietla tylko 10 rekordow pierwsze pobrane z kazdej strony
		}
 
	}
 return $result;
}
[PHP] pobierz, plaintext

everth

27.07.2010, 13:22:12

Sprawdź co zwraca funkcja $doc->loadHTMLFile (np. za pomocą var_dump()). Możliwe że nie wolno jej otwierać zewnętrznych zasobów po URL.

amii

27.07.2010, 13:38:16

Funkcja zwraca boolowski true więc niby ok. Wygląda na to, ze nie znajduje dopasowań.

everth

27.07.2010, 13:41:55

Czekaj, może xpath jest źle skonstruowany. Daj var_dump na '$links' oraz na 'count($links)'.

EDIT: Dodatkowo jeszcze sprawdź co jest pod $doc->documentElement, czasem xpath nie działa na złych HTML-ach

amii

27.07.2010, 13:53:12

Dałem tak:

[PHP] pobierz, plaintext 
var_dump($links);
		$ilosc = count($links);
		echo 'separator <br>'; 
		var_dump($ilosc);
		echo 'separator <br>';
		$wyswietl = $doc->documentElement;
		var_dump($wyswietl);
		echo '<br><br>';
[PHP] pobierz, plaintext

Wyskoczyło to -> http://serwisosmoz.eu/index1.php

everth

28.07.2010, 11:05:38

To powinno ci zadziałać (u mnie działa

). Zwraca tablicę z adresami. Sama funkcja wykonuje się dosyć wolno (bo odpytuje po adresach). Aha, zainteresuj się dodatkiem XDebug do PHPa

[PHP] pobierz, plaintext 
function href()  {
	$result = array();
	$doc = new DOMDocument();
 
	for ($a=0; $a<101; $a+=10)  { //dla mnie to petla dla 10 stron, ale co tam ;)
		$url1 = 'http://blogsearch.google.com/blogsearch?hl=en&ie=UTF-8&q=przykladowe+zapytanie&btnG=Search+Blogsi&sa=N&start='.$a;
 
		@$doc->loadHTMLFile($url1);
		$links = simplexml_import_dom($doc)->xpath("//a[@class='f1' and starts-with(@id, 'pb-')]"); //znajdź elementy a o klasie f1 i id zaczynającym się od pb
 
		$limes = (count($links)<10) ? count($links):10; //ustalamy granice dla 10 rekordow lub mniej (gdy linkow jest mniej
		for ($k=0; $k<$limes; $k++)  {
			$href = (string) $links[$k]['href']; // nasz link
			if ($href != null) $result[] = $href; // dodajemy jeśli link istnieje
		}
	}
	return $result;
}
 
var_dump(href()); // wyświetla wyniki
[PHP] pobierz, plaintext

amii

28.07.2010, 12:19:51

everth wielkie dzięki rzeczywiście działa

Poczytam sobie trochę o modelu DOM i debugerze.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.