Forum PHP.pl > Sugerowanie

Pomoc - Szukaj - Użytkownicy - Kalendarz

piernik

13.03.2008, 13:17:53

potrzebuję stworzyć jakiś mechanizm wyszukiwania podobnych fraz
Mam bazę z powiedzmy 30 tys różnych fraz.
Wpisuję jakąś fraze w pole input np naprawa samochodów i system powinien wyszukać w tych frazach podobne frazy z tym że najbardziej podobne będą na samym początku czyli wynik mógłby wyglądać np tak:

samochodowa naprawa
naprawy samochodów
naprawa samochodowa
naprawa aut
remont samochodów
itd

Jak takie coś zrobić?

na razie mam tak:
ucinam z frazy szukanej końcówki i dzielę na wyrazy i szukam w bazie 'słowo%'

Później przelatuję przez wszystkie wyniki i sortuję w php na takiej zasadzie:
dzielę frazę szukana i znalezioną na słowa i przelatuję przez wszystkie kombinacje levensteinem - wyniki sumuję i fraza z najniższym wynikiem levensteina trafia na początek.

Nie sprawdza się to przy powyżej 3 wyrazach.
Jak usprawnić takie sortowanie?

Landon

10.05.2008, 22:51:02

Pomysłem na pewno będzie

[PHP] pobierz, plaintext 
<?php
function podobne($slowo) {
	$licz = ($licz) ? $licz : strlen($slowo);
	if ($licz > 2 && substr($slowo,0,7) != "http://" && substr($slowo,0,4) != "www.") {
	  $shortest = -1;
	  $query = mysql_query("SELECT * FROM {{table}}", "keywords");
	  while($row = mysql_fetch_array($query)) {
		$lev = levenshtein($slowo, $row['name']);
		if ($lev == 0) {
		  $closest = $row['name'];
		  $shortest = 0;
		  break;
		}
		if ($lev <= $shortest || $shortest < 0) {
		  $closest  = $row['name'];
		  $shortest = $lev;
		}
	  }
	  $return = ($shortest != 0) ? 'Czy chodziło Ci o: <a href="?q='.$closest.'">'.$closest.'</a>' : '';
	}
	return $return.'<br>';
}
?>
[PHP] pobierz, plaintext

Jeżeli słowo nie ma więcej niż 2 litery porównuje je z istniejącymi w bazie.. Mam to w wyszukiwarce ale sa błędy np jak mam w bazie Google a wpisze google to proponuje porównać... A moim zdaniem powinno taki przypadek olać

Edit:

Dobra rozwiązanie teraz porównuje

[PHP] pobierz, plaintext 
<?php
function podobne($slowo) {
	$licz = ($licz) ? $licz : strlen($slowo);
	if ($licz > 2 && substr($slowo,0,7) != "http://" && substr($slowo,0,4) != "www.") {
	  $shortest = -1;
	  $query = mysql_query("SELECT * FROM {{table}}", "keywords");
	  while($row = mysql_fetch_array($query)) {
		$lev = levenshtein($slowo, $row['name']);
		if ($lev == 0) {
		  $closest = $row['name'];
		  $shortest = 0;
		  break;
		}
		if ($lev <= $shortest || $shortest < 0) {
		  $closest  = $row['name'];
		  $shortest = $lev;
		}
	  }
	  if (strtoupper(slowo) != strtoupper($closest)) 
		$return = ($shortest != 0) ? 'Czy chodziło Ci o: <a href="?q='.$closest.'">'.$closest.'</a>' : '';
	}
	return $return.'<br>';
}
?>
[PHP] pobierz, plaintext

Umie ktoś lepiej to rozwiązać?

Trochę jest tu:
http://pl.php.net/levenshtein
http://pl.php.net/similar-text

merk

11.05.2008, 03:36:28

Być może to będzie pomocne:
http://dev.mysql.com/doc/refman/5.0/en/ful...l-language.html

guitarnet.pl

11.05.2008, 08:08:13

po pierwsze 30 tys wpisow i takie sugestie to nie jest dobry pomysl... szczerze mowiac fatalny, wyobrazcie sobie obciazenie serwera mysql takimi zapytaniami

co ja zrobilem to cachowanie w sesji wpisanego wzoru szukania czyli jak ktos wpisze w jednej sesji jakis wyraz zostanie on zapamietany i przywolany przy powtorzneiu, dodatkowo wyniki wyszukiwania i wpisany wzor zapamietywane sa w osobnej tabeli ktora jest przeszukiwana w pierwszej kolejnosci

oczywiscie nalezy oszacowac czy taka tabela ma sens pod katem wystepowania powtorzen, w moim przypadku mam duzo wiec ma sens wysylac dodatkowe szybkie zapytania zamiast szukac w duzej bazie

spotkalem sie rowniez z rozwiazaniem opartym na dodatkowej specjalnie generowanej tabeli z indeksami z 2 polami keyword-wyniki ktora jest przeszukiwana zamiast prawidlowej z 30tys , taka skrotowa tabela
nalezaloby oczywiscie sprawdzic czy i jesli wystepuje oszczednosc operacji i czasu odwolania, w tej tabeli odswizanej np co 24 godz znajduja sie, nigdy nie mialem czasu tego wdrozyc ale na oko widac ze w moim systemie to lepsze i szybsze rozwiazanie niz cache na sesjach i podwojne sprawdzanie cachu

Landon

13.05.2008, 21:06:57

wydaje mi sie że to powinno się przydać, no ale ma podobno problemy z pl znakami...

http://dev.mysql.com/doc/refman/5.0/en/str...unction_soundex

[PHP] pobierz, plaintext 
<?php
function podobne($slowo) {
	$licz = ($licz) ? $licz : strlen($slowo);
	if ($licz > 2 && substr($slowo,0,7) != "http://" && substr($slowo,0,4) != "www.") {
	  $shortest = -1;
	  $query = mysql_query("SELECT * FROM keywords WHERE SOUNDEX(UPPER('".$slowo."')) = SOUNDEX(UPPER(name)) ");
	  while($row = mysql_fetch_array($query)) {
		$lev = levenshtein($slowo, $row['name']);
		if ($lev == 0) {
		  $closest = $row['name'];
		  $shortest = 0;
		  break;
		}
		if ($lev <= $shortest || $shortest < 0) {
		  $closest  = $row['name'];
		  $shortest = $lev;
		}
	  }
	  if (strtoupper(slowo) != strtoupper($closest)) 
		$return = ($shortest != 0) ? 'Czy chodziło Ci o: <a href="?q='.$closest.'">'.$closest.'</a>' : '';
	}
	return $return.'<br>';
}
?>
[PHP] pobierz, plaintext

tylko baza musi być w utf8_polish_ci wtedy niema problemów

No ale np nie wyświetla dla sciana nie wyświetli ściana trzeba samemu to dopisać

czyli REPLACE('cos w co', 'co', 'naco')

3

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.