Forum PHP.pl > [PHP]Crawler PHP

Pomoc - Szukaj - Użytkownicy - Kalendarz

vegeta

23.03.2011, 15:18:06

Mam oto sobie taki crawlerek:

[PHP] pobierz, plaintext 
set_time_limit (0);
 
	function DawajAdresy($strona)
	{
	$original_file = file_get_contents($strona);
 
	$stripped_file = strip_tags($original_file, "<a>");
	preg_match_all('#href="(http://[^/"]+)/?"#is', $stripped_file, $matches);
 
	$unikat = array_unique($matches[1]); //Usuwa powtarzajace sie wartosci
	return $unikat;
	}
 
	function ClearArray($arr) //Czysci tablice z pustych kluczy
	{
		foreach($arr as $val)
		{
		if(!empty($val))
		{
			$cleared_arr[] = $val;
		}
		}
		return $cleared_arr;
	}
 
	$poprawne = 0;
	$i = 0;
 
	$strona = "http://it-maniak.pl/";
	$unikat = DawajAdresy($strona);
	if (empty($unikat)) {
		echo 'Brak adresów na '.$strona.'<br />';
	} else {
	$tablica = ClearArray($unikat);
 
	echo '<h1>Linki znalezione na '.$strona.'</h1>';
 
	foreach ($tablica as $tab)
	{		
		if (!preg_match('#\.blip\.pl|\.sympatia\.onet\.pl|\.codeplex\.com#is', $tab)) {
		(sprawdzanie czy URL istnieje w bazie, wyświetlanie, dodawanie do bazy)
		}
	}
 
	foreach ($tablica as $tab)
	{
	//Druga rudka
 
		$strona = $tab;
		$unikat = DawajAdresy($strona);
		if (!empty($unikat)) {
			$tablica2 = ClearArray($unikat);
 
			foreach ($tablica2 as $tab2)
			{		
				if (!preg_match('#\.blip\.pl|\.sympatia\.onet\.pl|\.codeplex\.com#is', $tab2)) {
				(sprawdzanie czy URL istnieje w bazie, wyświetlanie, dodawanie do bazy)
				}
			}
		}
	}
	}
	echo '<br />Poprawne strony: '.$poprawne.'/'.$i;
[PHP] pobierz, plaintext

1. Jak w prosty sposób zrobić, aby w przypadku blokowania robotów w meta (nofollow, noindex, none itp) wyrzucało adres z tablicy?
2. Da się zrobić w prosty sposób, aby robot pobierał robots.txt i przetwarzał je jak normalny robot? Jak?
3. Czy cURL jest szybszy od file_get_contents? Jakie są argumenty za i przeciw cURL?

Ludzie

darko

23.03.2011, 15:29:34

1. Sprawdzasz z pobranej treści strony sekcję head i jeżeli znajdziesz informacje nofollow czy noindex to pomijasz taką stronę
2. ?
3. Podobno cUrl jest znacznie szybszy.

sn1p3r

23.03.2011, 15:29:42

czytasz plik robots.txt i postępujesz według opisu

cURL jest "mocniej" customizowalny, możesz na przykład nie podążać za 302, dokładać własne nagłówki i tak dalej

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.