Forum PHP.pl > Algorytm podobienstwa

Pomoc - Szukaj - Użytkownicy - Kalendarz

nospor

30.01.2015, 10:41:10

Znacie jakieś w miare dobra algorytmy na znajdywanie podobienstwa dwóch nazwa składających się z wielu wyrazów?

Podobienstwo na zasadzie:
kapitaliki,
jedno slowo podobne
edna litera inna,
znaki interpunkcyjne inne

Najlepiej jakby dało się do zrobić na poziomie zapytania do bazy. Jak nie to obróbka w php.

r4xz

30.01.2015, 10:52:04

Może algorytm Levenshtein distance, nawet znajdzie się coś do tego w sql (nie sprawdzałem jak działa). Nigdy też tego nie implementowałem, a więc moja wiedza jest czysto teoretyczna (więc pewnie i znikoma) na temat tego algorytmu, ale spróbować zawsze warto.

nospor

30.01.2015, 10:58:39

No właśnie ta nazwa mi coś chodziła po głowie

Dzięki za linki, jak już coś mi się uda zrobić dam znać.

Jak zwykle jeśli ktoś ma coś do dodania to zapraszam

redeemer

30.01.2015, 11:18:47

http://php.net/manual/en/function.levenshtein.php

@nospor: piszesz ceneo2? :-)

nospor

30.01.2015, 13:42:01

Nie, nie piszę ceneo2

Widzę łączysz wątki

No dobra, ale sam levenshtein nie da rezultatow, jakie oczekuje.

Zalozmy ze porownuje slowa:
echo $lev = levenshtein('Blabla', 'Blabla sp zoo');
echo $lev = levenshtein('Blabla', 'Bleble');

To wg lev, blizsze mi bedzie Bleble, podczas gdy wg mnie bliższe ma byc Blabla sp zoo. Trzeba będzie albo wzbogacić algorytm o levenshteina i cos jeszcze lub moze jest coś jeszcze innego?

redeemer

30.01.2015, 13:46:59

Może jakoś zmixować to z https://en.wikipedia.org/wiki/Hunt%E2%80%93McIlroy_algorithm

pyro

30.01.2015, 13:48:53

Proponuję najpierw sprecyzować jakiego podobieństwa albo przynajmniej przybliżonego algorytmu jakiego oczekujesz oraz przykłady I/O jakich byś oczekiwał rezultatów, bo "chcę jakieś określanie podobieństwa, dostałem levenshtein, ale nie o takie podobieństwo mi chodziło" naprawdę nie mówi absolutnie nic

nospor

30.01.2015, 13:56:22

@pyro tak masz racje. Sam czekam jeszcze na konkretne przykłady. Chciałem jednak w miedzyczasie zasięgnąć już jakieś teorii

sazian

30.01.2015, 20:14:19

$p=0;
similar_text("Blabla","Blabla sp zoo",$p);
var_dump($p);
daje 63%

similar_text("Blabla","Blable",$p);
var_dump($p);
daje 83%

nospor

13.02.2015, 09:54:20

@sazian, tak, juz testowalem tez similar text. Jak dostane konkretne dane to bede testowal najlepsze rozwiązanie

edit: dobra, dzieki panowie. Mix levensteina z rozbijaniem na słowa działa niemalże idealnie. Na jakies 95%

aniolekx

13.02.2015, 10:05:09

to może pochwal się dokładnym rozwiązaniem ¬¬

nospor

16.02.2015, 08:49:31

Ok, postaram sie po weekendzie przygotowac paczke

edit:
https://github.com/nospor/similarity

kilab

17.02.2015, 08:34:51

Dzięki @nospor za paczkę, robi dobrą robotę

Ja akurat właśnie muszę zrobić odnajdywanie podobnych słów, ale na poziomie bazy i korzystając z okazji, że temat w offtopie, mam do was pytanie. Najwyżej zgarnę srogie baty

Otóż tak. Mam dwie identyczne bazy w MySQL i PostgreSQL na których badam wydajność żeby ostatecznie po tygodniach testów pozostać na MySQL lub przejść na PostgreSQL.
Do MySQL dodałem funkcję wykorzystującą algorytm levenshteina znalezioną tu: http://stackoverflow.com/questions/1390988...nction-in-mysql która działa, ale przy tabeli 40 tys. rekordów wykonanie najprostszego zapytania wykorzystującego tę funkcję trwa ok 15 s. Docelowo ma on działać na trochę większej tabeli, ok. 250 tys. rekordów więc rozwiązanie raczej marne. Na ogromny plus wychodzi w tej sytuacji PostgreSQL, w którym wykonanie zapytania wykorzystującego funkcję levenshteina z modułu fuzzystrmatch trwa zaledwie 0,5 s. na takiej samej liczbie rekordów (40 tys.).

No i to pytanie docelowe - czy to wydaje się być realne i normalne, że różnica czasu w wykonaniu bardzo podobnych do siebie zapytań na dwóch tych bazach jest taka duża?

nospor

17.02.2015, 08:41:24

Skoro w PostgreSQL korzystasz z gotowej wbudowanej biblioteki to tak, jest duża szansa że bedzie działać ona szybciej niż jakiś kod napisany przez kogos w necie.

Też chciałem robić to na poziomie bazy. Jednak szybko się okazało, że sam levenshtein jest niewystarczający, wiec musiałem się przerzucić na php.
Moge dodać, że sprawdzenie ponad 200tys tekstow trwa około 5 sekund

com

17.02.2015, 13:17:21

skoro w hydeparku to pozwolę sobie na mały offtop ta bółka przez ó to mnie razi

a tak generalnie możesz dorzucić na stopkę, może się komuś przydać

nospor

17.02.2015, 13:22:42

Z tą bółką to na tym polegał dowcip

com

17.02.2015, 13:28:08

hahaha ok

znaczy się wiedziałem, że to dla jaj napisane ale rzuciło mi się strasznie w oczy

Crozin

17.02.2015, 13:33:17

Skoro będziesz tego potrzebował do jakiegoś wyszukiwania to dlaczego nie skorzystasz z narzędzi do wyszukiwania, np. SOLR/ElasticSearch (oba działają na Lucene)? Przygotowując odpowiednie indeksy, które będą działały na znormalizowanych wyrazach otrzymasz dużo lepsze wyniki.

Pyton_000

17.02.2015, 13:33:24

Ale Ty @com jesteś łatwowierny ;P @nospor zrobił byka i żeby się obronić napisał że niby celowe

A że Mod to trzeba się zgadzać ;P I Banik ;D

nospor

17.02.2015, 13:35:51

@Crozin tam gdzie to wrzucam, nie miałem dostępu do Lucene
@Pyton prorok jak czy co....

com

17.02.2015, 13:39:36

no dlatego przyznałem mu rację proroku

no a tak bardziej pasowało do tego co tam stworzył, wiec niech bd błąd wybaczony

nospor

17.02.2015, 13:41:34

Oj bo pisałem szybko
spółka bółka
i tak fajnie do rymu wyszło

Dobra, "żart" usunięty, jest już poprawnie

mls

17.02.2015, 14:54:11

No ale funkcja clean mogłaby być napisana zdecydowanie prościej

Pomijając już zamianę polskich literek (bo co, jeśli tam będą umlauty lub inne akcenty?) to te cztery preg_replace można było zastąpić maksymalnie dwoma...

Ogólnie, możnaby uprościć:

[PHP] pobierz, plaintext 
public function clean($text) {
		$text = iconv('utf8', 'ascii//translit//ignore', trim($text));
		$text = preg_replace('#[^a-z0-9]+#', ' ', strtolower($text));
		$text = preg_replace('#[\s]+#', ' ', $text);
		return trim($text);
	}
[PHP] pobierz, plaintext

Pyton_000

17.02.2015, 14:55:44

GitHub jest Twój

Fork, pull request i jedziesz

nospor

17.02.2015, 15:06:22

@mls masz racje. Jesli moglbys zrobic to co mowi Pyton, to chetnie bym zobaczyl jak sie na githubie zarządza forkami

mls

17.02.2015, 23:57:59

Cytat(nospor @ 17.02.2015, 15:06:22 )

@mls masz racje. Jesli moglbys zrobic to co mowi Pyton, to chetnie bym zobaczyl jak sie na githubie zarządza forkami

Proszzz:
https://github.com/mlask/similarity
+ pull request na oryginalnym repo

nospor

18.02.2015, 12:32:27

@mls a testowales to? Bo mi niestety Twoj kod:

[PHP] pobierz, plaintext 
$text = 'bbbąęśĄĘŚccccc';
echo iconv('utf8', 'ascii//translit//ignore', trim($text));
[PHP] pobierz, plaintext

zwraca:
bbb?

?ccccc

edit: dopiero dodanie setlocale poprawia sprawe

[PHP] pobierz, plaintext 
$text = 'bbbąęśĄĘŚcccccWeiß, Goldmann, Göbel, Weiss, Göthe, Goethe und Götz';
setlocale(LC_CTYPE, 'pl_PL.utf-8');
echo iconv('utf-8', 'ascii//translit', $text);
[PHP] pobierz, plaintext

mls

18.02.2015, 16:43:54

Cytat(nospor @ 18.02.2015, 12:32:27 )

@mls a testowales to? Bo mi niestety Twoj kod:

Testowałem. Problemem jest w większości przypadków nie do końca prawidłowa biblioteka z której korzysta iconv. Na systemach linuksowych, np. na Ubuntu, używana jest biblioteka "glibc" zamiast poprawnej "libiconv". U mnie działa, bo "mam maka", bo tu standardowo jest libiconv. Ale faktycznie, zapomniałem, że z iconv mogą być problemy. A multibyte_string nie obsługuje transliteracji...

nospor

18.02.2015, 16:47:51

No właśnie...
No nic, dzieki za pull

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.