Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: Przeszukiwanie dokumentów
Forum PHP.pl > Forum > PHP
rip
Witam,

Chciałbym stworzyć wyszukiwarkę dokumentów, która przeszukiwałaby dokumenty pod kątem wystąpienia danej frazy w dokumencie (zapewne po jakimś zindeksowaniu ich wcześniej). Czy jest to możliwe do zaimplementowania w php ? Może ktoś zna gotowe rozwiązania ?

pozdr.
skowron-line
Cytat(rip @ 3.09.2009, 11:46:01 ) *
przeszukiwałaby dokumenty

Jakich dokumentów questionmark.gif xml, txt, pdf, doc questionmark.gif
rip
dokumenty: doc, pdf, txt, rtf
kfc4
Hmm, jakby wczytać ich zawartość do bazy oraz założyć jakiś fulltext to czemu nie.
rip
Cytat(kfc4 @ 3.09.2009, 15:16:23 ) *
Hmm, jakby wczytać ich zawartość do bazy oraz założyć jakiś fulltext to czemu nie.


Jakbym wiedział, że to będą pliki nie zawierające zbyt dużej ilości danych to jeszcze ok, ale mogą się zdarzyć pliki, które maja po kilkadziesiąt stron...
kfc4
Dobra baza, dobre zapytanie, dobry serwer i zobacz jaki masz ficzer: podgląd plików bez pobierania ich smile.gif Z tego co się orientuje to musiał byś otworzyć każdy plik, sprawdzić jego zawartość - jak jest tym co jest poszukiwanie to go wyświetlić i tak w kółko. Jak nie chcesz całych dokumentów wwalać do bazy to może jakieś słowa kluczowe?
Riklaunim
Indeksowanie binarnych plików to nie jest domena PHP, tym bardziej potrzebujesz narzędzia do efektywnego wyszukiwania pełnotekstowego, a baza danych nią nie jest. Na dużą i bardzo dużą skalę można użyć Solr. Na mniejszą np. Xapiana. Pierwszy Solr - wystawia RESTowe API więc w frontendzie PHP dogadasz się z nim curlem. Xapian ma swój własny binarny moduł do PHP udostępniający jego API. Z tego co wiem oba narzędzia mogą indeksować niektóre binarne typy plików. Co do reszty trzeba by stosować jakiś "preprocesor" przetwarzający plik do indeksowanego formatu (znajdą się jakieś Linuksowe/uniksowe narzędzia winksmiley.jpg)
erix
Jeszcze było coś takiego, jak SphinX, też natywny moduł do PHP.
Riklaunim
Sphinx działa generalnie w oparciu o dane z bazy danych (można też dawać mu dane przez XML, ale to inna historia).
rip
dzięki za sugestie, zorientuje się w możliwościacj i dam znać co i jak poszło...

pozdr.
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.