kedarko
23.02.2010, 18:36:03
wie ktos moze jak napisac robota ktory wchodzi na przykladowa strone np www.wp.pl i zczytuje wszystkie linki ktore sa na pierwszej stronie i zapisuje je do jakiejs bazy, pozniej wchodzi na podstrone i robi to samo, jezeli jest juz ten link to go nie zapisuje i wszystkie te linki oznacza flaga na poziomie drugim, wchodzi na kolejna podstrone i konczy indeksowanie bo ten robot ma sie zaglebić tylko do trzeciej podstrony
z gory dziekuje
karolrynio
24.02.2010, 08:09:44
Ale w czym masz problem? Z pobraniem strony? Czy ze znalezieniem linków w tekście czy zapisaniu do bazy?
Do pobierania strony możesz użyć fopen.
Do znalezienia linków wyrażenia regularne.
I w bazie dla każdego adresu sprawdzasz czy adres istnieje jak istnieje to zwiększasz licznik o jeden, a jak nie ma to dodajesz adres z ilością 1.
pablo89pl
24.02.2010, 11:34:15
K1.Wchodzisz np Curlem albo fopen, pobierasz zawartosc, wyrazeniem regularnym zbierasz linki, zapisujesz do tablicy
K2. Przelatujesz po tablicy, jesli link jest te tej samej domenie(odpowiedni warunek) wchodzisz jescze raz w to(patrz krok 1) i zapisuesz do innej tablicy <- i masz uz 2 poziom zagnieżdżenia
K2. Ponawiaj krok 2 ale dla innej tablicy
Potem wqzsyustkie tablice mozesz scalić, dać potem array_unique na nich, przefiltowac i zapisac
Powodzenia
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę
kliknij tutaj.