No cóż dawno tematu żadnego nie zakładałem, nudno się zrobiło więc zajmę się tym modułem ;]
Pytanie nie jest jak używać, bo to przecież oczywiste że jest w dokumentacji , ale zastanawia mnie problem wydajności.
Chodzi mi dokładnie że natrafiłem na takie coś:
http://jayant7k.blogspot.com/2007/06/lucen...ne-in-java.html
No i nie wiem czy coś się w tym zmieniło, jeśli tak to tak trochę kiepskawo, czy ktoś z Was przeprowadzał jakieś testy wydajności, jak się spisuje ten moduł? Ja zapewne sam coś niedługo podrzucę, ale interesuje mnie też opinia innych.
Do tego pytanie do tych co używali/używają czy są z nim jakieś problemy? Bo jeden już wyczytałem np. tu mowa o "to many open files", co prawda pewnie wystarczy zrobić optymalizację, ale wolał bym wiedzieć jakie mieliście doświadczenia.
Są jakieś ciekawe słowniki do "StopWords", czyli słów typu "i", "a", "w" itp. takie polskie?
Oraz jak rozwiązaliście sprawę indeksu i danymi w bazie danych, bo przecież zalecane jest aby nie trzymać danych w indeksie (co jest raczej oczywiste).
Hm, powiem szczerze, że się takiego czegoś nie spodziewałem, takie prosty test 10000 rekordów, wyszukiwanie po słowie co występuje w każdym z nich:
Zend_Search_Lucene: 3.673s
Tsearch2: 0.084s
Luke (ten sam index co Zend): ~0.016s (za mała wartość aby podać dokładnie)
Przy bardziej złożonych wychodzi na korzyść Luke w porównaniu do Tsearch2...
Luke ma możliwość wyszukania w indeksie, dlatego z niego korzystałem.
Nie wiem, czy ja coś robię nie tak, czy jednak wyniki tamtego testu są nadal aktualne... jeśli tak to nie opłaca się korzystać z Zend_Search_Lucene.
Szczerze jestem głęboko rozczarowany.