Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: Crawler do testów
Forum PHP.pl > Forum > PHP
tmk29121992
Witam,
właśnie piszę program służący do testowania serwera, takiego jakby crawlera, który przejdzie po wszystkich podstronach. Kolega doradził mi abym zrobił to na bazie danych. Miało by to wyglądzać następująco:
- bot sczytuje wszystkie linki z podanej strony i zapisuje je do bazy,
- wchodzi na pierwszą pierewszą podstronę, znowu sczytuje linki do bazy i tak aż dojdzie do końca ścieżki,
- kiedy dojdzie do końca cofa się o jeden link do tyłu i przechodzi do kolejnych podstron no i tak aż przejdzie po wszystki podsztronach,
- w bazie znajduje się kolumna checked, w której zaznaczanie jest czy dana podstrona została odwiedzona

Niestety nie bardzo wiem jak się to tego zabrać jak narazie udało mi się zczytać wszystkie linki z danej strony i zapisać je do bazy ale nie wiem jak zrobić żeby przeszedł mi na pierwszą podstronę i z tamtąd sczytał linki i przeszedł dalej. Z góry dziękuję za pomoc
ShadowD
Curl + preg_match_all
tmk29121992
a nie możesz być zamiast curl file_get_content? słyszałem że z curl czasami jakieś problemy się pojawiają
nospor
Raczej na odwrot - to z file_get_contents moga byc problemy w zaleznosci od ustawien serwera
tmk29121992
możliwe tamtą informację przeczytałem na jakimś forum także nie koniecznie musi być prawdziwa
ShadowD
Używaj curl'a nawet jeśli było by Ci łatwiej użyć file_get_content to w przyszłości możesz zechcieć się logować czy zmieniać nagłówki lub nawet używać cookie i wtedy będziesz mieć już podstawy do tego. ;-)
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.