Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: [PHP]Projekt robota indeksującego treść
Forum PHP.pl > Forum > Przedszkole
wujek2009
Cześć.

Chcę zrealizować projekt wyszukiwarki indeksującej treść danej strony internetowej.
Ogólnie zarys projektu mam mniej więcej w głowie, ale nie wiem jak miałbym wykonać - przechodzenie na inne podstrony;
Bot znalazł link prowadzący do innej podstrony serwisu (np. domena.pl/artykuly.html ==> domena.pl/artykuly,2.html (następna strona)) w jaki sposób powinienem go przenieść tam?

Mówię tutaj o prostym bocie napisanym nawet w języku php - nie chce zaawansowanych algorytmów; nie tworze drugiej wyszukiwarki Google ;-)
Crozin
Po pierwsze to algorytmy nie są zależne od języka.

Ogólna zasada działania jest dosyć prosta:
1. Pobierasz źródło strony.
2. Analizujesz je pod różnymi kątami - indeksujesz treść, wyszukujesz linki do innych (pod)stron itp. itd. Tutaj przyda Ci się DOMDocument.
3. Powtarzasz cały proces dla nowych podstron, których adresy zdobyłeś w punkcie drugim.
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.