Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: [php]wyszukiwarka
Forum PHP.pl > Forum > PHP
Fixus
Witam
Staje przed pewnym dylematem. Otóż rozważam/potrzebuję/chcę stworzyć wyszukiwarkę. Sprawa polegałaby na tym, że wyszukiwarka przeszukuje nie całą sieć, ale zbiór/pewną ilość konkretnych stron internetowych. Teraz sprawa polega na stworzeniu własnego silnika, struktury bazo danowej i rozwiązaniu wielu innych problemów. Ciężko coś na ten temat znaleźć w sieci....czegoś konkretnego. Dlatego proszę o pomoc. Podsuńcie jakieś pomysły, poprawcie mnie jak będe gadał głupoty itp smile.gif

Kołacze mi się pierwsze myśl...zakładając, że ktoś będzie dodawał do bazy daną stronę internetową można by ją zindexować. Dodać słowa (tak jak w książce index słów) do bazy danyc. Dane słowo przypisać do unikalnego numeru id strony (uid_p). Ale boje się, że przy 10 stronach będzie to baza niewyobrażalnych rozmariów i może zrobić się długie oczekiwanie. Podsuńce swoje pomysły, ale także przydatne materiały. Wszystko się przyda
franki01
1. Potrzebny jest naprawde rozbudowany silnik

2. Najlepiej, gdyby uzytkownik podawal tylko URL, a pajączek pobieral dane strony

3. Gdyby dane byly podawane przez usera przy dodawaniu strony, podane slowa kluczowe/tytul strony moglby zupelnie byc inny niz w rzeczywistosci wiec stanowczo odradzam!

4. W Cronie ustawic sobie jedna godzine codziennie, o ktorej wszystkie strony bylyby indeksowane (pobierane dane, ukladanie slow kluczowych, zapisywanie tytulu strony)

I to pobieranie danych ze stron najlepiej, gdyby bylo na jakims dedykowanym serwerze, innym niz wyszukiwarka, zeby administratorzy nie czepiali o naduzywanie lacza...


Takie cos wykorzystuje chyba wiekszosc wyszukiwarek, wiec nie ma w tym zadnej wielkiej filozofii..
Fixus
1.Ale indeksowanie wyłącznie słów kluczowych z meta tagów czy np. całej zawartości stron?

2.Biorąc pod uwagę, że to administratorzy dodają stronę to nie będzie strachu o fałszywe słowa kluczowe

3."a pajączek pobierał dane strony" - możesz troche objaśnić?

Tak zdaje sobie sprawę z tego, że codziennie będzie trzeba aktualizować dane dotyczące stron itp. Na szczęście na chwilę obecną (i późniejszą też raczej) nie muszę martwić się obciążeniem serwera
franki01
1. Metatagi niewarto indeksowac, moze tylko dla informacji... Lepiej np pobierac slowa z h1, h2, sprawdzajac ich dlugosc (zeby tekst nie byl za dlugi w naglowku, np 600 slow biggrin.gif)

2. Jezeli sa to zaufane osoby, to oczywiscie, mozna dac im mozliwosc wpisania slow kluczowych, ale to nie jest polecane tongue.gif

3. Pajaczek - skrypt interpretujacy tagi na stronie, ktora jest dodana do wyszukiwarki, rozdzielanie na text, ktory jest mniej brany pod uwage przy wyszukiwaniu, i na naglowki
GrayHat
Przyjrzyj się projektowi Lucene - http://lucene.apache.org/
Do php masz most w Zend_Frameworku - Zend_Search_Lucene
Fixus
jescze ktoś jakieś pomysły smile.gif

a zaczęło mnie jeszcze zastanawiać. Bo mogę spokojnie założyć że spora ilość osób może z grubsza w tym samym momencie z niej korzystać, tj. z wyszukiwarki. Co można zaradzić żeby zbytnio nie wpłynęło to na czas działania?
GrayHat
Cytat(Fixus @ 10.09.2007, 19:41:49 ) *
jescze ktoś jakieś pomysły smile.gif

a zaczęło mnie jeszcze zastanawiać. Bo mogę spokojnie założyć że spora ilość osób może z grubsza w tym samym momencie z niej korzystać, tj. z wyszukiwarki. Co można zaradzić żeby zbytnio nie wpłynęło to na czas działania?



Lucene winksmiley.jpg
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.