Forum PHP.pl > Poruszanie się po stronie

Pomoc - Szukaj - Użytkownicy - Kalendarz

D3vilroot

31.08.2006, 17:49:37

Sprawa przedstawia się tak:
Za pomocą cURL chce "wejść" na daną stronę. Następnie przeszukać ją w poszukiwaniu danego słowa np. php
Chce też żeby to słowo było wyświetlane na tej słowie jako url tj.

[HTML] pobierz, plaintext 
<a href="1234.php">php</a>
[HTML] pobierz, plaintext

Jak mój skrypt znajdzie coś takiego jak wyżej to wchodzi w ten link i tam wykonuje jeszcze inne operaje.
Tylko nie wysyłajcie mnie do manula bo się go oczytałem sporo i przykładów też.

Wiem o istnieniu funkcji preg_match i preg_match_all, ale nie umiem posługiwać się tymi dziwnymi znaczkami to znalezienia czegoś np.

[PHP] pobierz, plaintext 
<?php
$preg ="/a[s]+[^>]*?href[s]?=[s"']+(.*?)["']+.*?>([^<]+|.*?)?</a>/";
preg_match(trim($preg), "$data", $matches);
[PHP] pobierz, plaintext

Tak narazie wygląda moj program. Czyli nic wielkiego

[PHP] pobierz, plaintext 
<?php
$strona = "http://strona.pl/";
 
$ch = curl_init();
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_URL,"$strona");
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.8.0.6) Gecko/20060728 Firefox/1.5.0.6');
$headers = array('Accept-Language: pl,en-us;q=0.7,en;q=0.3',
				 'Accept-Charset: ISO-8859-2,utf-8;q=0.7,*;q=0.7',
				 'Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5');
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
 
//send referer page
curl_setopt($ch, CURLOPT_REFERER, 'http://google.pl');
 
// gzip, deflate
curl_setopt($ch, CURLOPT_ENCODING, '');
 
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
 
//cookies
curl_setopt($ch, CURLOPT_COOKIEJAR, "my_cookies.txt");  //initiates cookie file if needed
curl_setopt($ch, CURLOPT_COOKIEFILE, "my_cookies.txt");  // Uses cookies from previous session if exist
 
//post
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS,
			"");
$data = curl_exec($ch);
curl_close ($ch); 
?>
[PHP] pobierz, plaintext

Przepraszam, że odświeżam temat, ale czegoś sie dopracowałem więc może więcej mi pomożecie.

[PHP] pobierz, plaintext 
<?php
	//znajduje ciąg z adresem
	$urlpattern = '/<a[^>]+href="([^"]+)/i';
	preg_match_all($urlpattern, $data, $matches);
	printf("Ilosc linkow: %d<P>", sizeof($matches[1]));
	foreach ($matches[1] as $u) {
	 echo $u."<br/>";
	}
 
?>
[PHP] pobierz, plaintext

Ten kod znajduje mi wszystkie url na stronie a bez odnośników tzn. znajduje to

[HTML] pobierz, plaintext 
http://jakas.strona.pl
[HTML] pobierz, plaintext

A ja musze mieć

[HTML] pobierz, plaintext 
<a href="http://jakas.strona.pl">Tu opis</a>
[HTML] pobierz, plaintext

Proszę pomóżcie. Buduje coś w rodzaju prostego webspider'a.
A może znacie jekieś gotowe proste skrypty

naox

3.09.2006, 01:19:48

odpowiadam, bo nikt inny nie odpowiedział. sam tez nie znam sie na regexp dobrze wiec stosuje ciagle funkcje explode. dosyc to pewnie nie profesjonalne ale wszystko w koncu da sie zrobic tak. Możesz rozbić kod html całej strony uzywajac '<a href="' a pozniej z kazdym rozbitych elementów jeszcze rozbić przy </a> czy "
no ale jesli szukasz profesjonalnego rozwiazania to sie nie słuchaj

Balon

3.09.2006, 09:06:43

[PHP] pobierz, plaintext 
<?php
$urlpattern = '/<a[^>]+href="([^"]+)/i';
?>
[PHP] pobierz, plaintext

a gdzie tutaj pobierasz zawartosc <a></a> ?
ja bym to napisal tak

[PHP] pobierz, plaintext 
<?php
$urlpattern = '!<a[^>]+href="(.*?)">(.*?)</a>!i';
?>
[PHP] pobierz, plaintext

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.