Forum PHP.pl > similar

Pomoc - Szukaj - Użytkownicy - Kalendarz

Forum PHP.pl > Forum > Bazy danych > MySQL

#luq

20.05.2010, 16:10:00

Potrzebuje na poziomie bazy wyciągnąć rekordy w których jedno z pól jest zbliżone w 90% do podanego ciągu. Tak w PHP jest funckja similar_text jednak to powinno się robić na poziomie bazy. Chodzi o coś takiego:

[SQL] pobierz, plaintext 
SELECT foo.id FROM foo WHERE SIMILAR( foo.name, 'jakis string' ) > 0.9
[SQL] pobierz, plaintext

tyle, że takiej funkcji w MySQL nie ma

Da się to w ogóle zrobić na MySQL`u?

Na forum znalazłem identyczny temat http://forum.php.pl/index.php?showtopic=70797 jednak nie rozwiązany...

wookieb

20.05.2010, 16:19:50

W mysql jest wyszukiwanie pełnotekstowe (FULLTEXT) dla tabel na silniku MyIsam. Na silniku InnoDb powinieneś użyć sphinxa.
Zapomnij o soundex, służy do czegoś innego. Levensthein jest czymś podobnym ale potrzebuje funkcji składowanej http://codejanitor.com/wp/2007/02/10/leven...tored-function/

Podpowiedź aby zainstalować procedurę.

[SQL] pobierz, plaintext 
DELIMITER |;
[KOD PROCEDURY]
 
DELIMITER ;
[SQL] pobierz, plaintext

#luq

20.05.2010, 20:45:49

Super. Dzięki!

Btw. rozumiem, że to inne algorytmy są, bo dla

[PHP] pobierz, plaintext 
similar_text( 'abrakadabra', 'kadabra', $procent );
echo $procent;
[PHP] pobierz, plaintext

dostaje: 77,(7)

natomiast dla:

[SQL] pobierz, plaintext 
SELECT LEVENSHTEIN_RATIO( 'abrakadabra', 'kadabra' );
[SQL] pobierz, plaintext

dostaje: 64

wookieb

20.05.2010, 20:58:54

Jest to różnica algorytmów.
similar_text korzysta z algorytma Olivera , drugi Levenshteina
Wyniki, które podałeś są oczywiste.

Może powiedz co chcesz uzyskać to dobierzemy coś dla Ciebie.

#luq

20.05.2010, 23:06:33

W sumie to dla mnie chyba bez różnicy który algorytm, wystarczy skalibrować przy ilu % otrzymuje dane które są na tyle podobne, że możliwe, że to literówka.

wookieb

20.05.2010, 23:12:22

Przy prostych literówkach lepiej nie porównywać procentowo tylko po prostu liczbowo.
Odległość levenstheina mówi ile zmian musisz dokonać aby jedno słowo zamienić w drugie. Więc myślę że 3 (max 4) są w zupełności zadowalające.

#luq

20.05.2010, 23:29:44

Sprawdzę. Na pewno będzie to szybsze

Nie będę zakładać nowego tematu, ale mam kolejne zapytanie:

[SQL] pobierz, plaintext 
SELECT id, name, LEVENSHTEIN_RATIO( name, '/*tu mam zmienna*/' ) AS similar FROM foo WHERE LEVENSHTEIN_RATIO( name, '/*tu mam zmienna*/' ) >= 90 GROUP BY id ORDER BY similar DESC
[SQL] pobierz, plaintext

i ogólnie chodzi mi o to, że hm... funkcja LEVENSHTEIN_RATIO jest wykonywana 2 razy tak? Czy nie wiem jest ten wynik jakoś cachowany w bazie? Jeśli nie to jak zrobić tak aby nie liczyć tego 2 razy bo przy kilku tys. rekordów to troszkę trwa. Nie sprawdzałem (jest późno a mnie się oczy kleją) ale podzapytanie dało by chyba radę. Jakieś inne rozwiązanie?

wookieb

20.05.2010, 23:44:59

Szczerze to nie chce mi się teraz kombinować ale wystarczy użyć having albo zmiennej. Co lepiej, niestety za późno by testować

#luq

21.05.2010, 09:54:00

Okej to tak, zwykła odległość Levenstheina przy małych stringach powinna być mała.

[SQL] pobierz, plaintext 
SELECT authorName FROM `msh_name_author` WHERE LEVENSHTEIN( authorName, 'kant' ) < 4
[SQL] pobierz, plaintext

Dostaje:

Kod

Ray
TEST
kant
kant.

Dla warunku < 3 wyniki są jak dla mnie zadowalające

Kod

kant
kant.

Ale przy długich stringach max 2 zmieny to imho mało, więc chyba zostanę jednak na procentowej wersji.

Użyłem zmiennej i HAVING i nie zauważam zmniejszenia czasu wykonani, może jednak to nie jest liczone 2 razy?

[SQL] pobierz, plaintext 
SELECT authorId, authorName, (
    @t := LEVENSHTEIN_RATIO( authorName, 'kant' )
) AS similar
FROM msh_name_author
HAVING similar > 70
[SQL] pobierz, plaintext

Jeszcze jedna sprawa - dla tabelki w której mam ~1200 rekordów to jest strasznie wolne (~7 sec) więc pomyślałem, żeby nie mielić całej tabelki tylko rekordy o inentycznej pierwszej literze, wygląda to tak:

[SQL] pobierz, plaintext 
SELECT authorId, authorName, (
    @t := LEVENSHTEIN_RATIO( authorName, 'kant' )
) AS similar
 
FROM (
    SELECT authorId, authorName
    FROM msh_name_author
    WHERE SUBSTRING( authorName, 1, 1 ) = 'k'
) AS foo
HAVING similar >70 
[SQL] pobierz, plaintext

Prawie przy 'k' wykonuje się ~0.2 sec więc jest okej. Przy szukaniu literówek to chyba dobry pomysł bo raczej rzadko robi się literówkę w pierwszym znaku, chyba że ma ktoś inny pomysł?

wookieb

21.05.2010, 10:16:56

Ten pomysł jest ok, ale stworzyłbym dodatkową kolumne przedstawiajaca ilosc znakow w słowie.
Dzięki temu np jak szukasz słowo "test" to założysz warunek

[SQL] pobierz, plaintext 
dlugosc_slowa BETWEEN 2 AND 6
[SQL] pobierz, plaintext

co jeszcze lepiej ograniczy wyniki

Jeżeli chcesz szukać jeszcze inaczej zainteresuj się n-gramami.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.