Forum PHP.pl > Robot do dzielenia wyrazów

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Robot do dzielenia wyrazów

wcbarbi

24.09.2009, 17:24:10

Witam, mam taki problem chciałbym stworzyć robot który dzieliłby mi wyrazy według kryterium fonetycznemu pn. za?de?cy?do?wać, u?pro?wa?dzić, na?ra?da, ku?zy?no?wie ponadto każdą oddzielną sylabę wpisywałby do następnej kolumny w wierszu tabeli np. kol./1/Lp. kol./2/zadecydować kol./3/za kol./4/de/ kol./5/cy/ kol./6/do kol./7/wać. Na dzień dzisiejszy mam stworzoną kolumnę tylko z wyrazami czyli kol./1/Lp. kol./2/zadecydować. Czy koś ma ktoś jakiś pomysł?

thek

25.09.2009, 11:24:50

Szczerze? Prościej napisać syntezator mowy niż robota do podziału sylabicznego

Wiem bo próbowałem oba. Robota nie zrobiłem, ale syntezator tak. Za dużo w przypadku pierwszego masz reguł do sprawdzenia. A syntezator może Ci się w zasadzie tylko walnąć w słowach typu "erzac" gdyż potraktuje "rz" nie jako osobne litery, ale jako jeden fonem, identyczny z "ż". By je odróżnić, musiałby mieć bazę wyjątków

W polskim i tak nie ma najgorzej, bo nie licząc zbitek kończących się na -ka lub mających -ie- oraz kilku innych, podział następuje zazwyczaj po samogłoskach, ale tutaj trzeba jeszcze trochę reguł pododawać, bo "zazwyczaj" to nawet nie większość przypadków. Niestety trzeba mocno się w gramatykę języka wgryźć by tego typu programy pisać. Lepiej więc o zasady dzielenia wyrazów zapytać kogoś kto się naprawdę na tym zna, czyli bez rad polonisty nie ma co tego na poważnie ruszać. Poszperaj ewentualnie za zasadami dzielenia wyrazów na sylaby by jakieś pierwsze, podstawowe próbować zaprogramować. Jeśli z nimi sobie nie poradzisz to nie wiem czy jest sens w to dalej brnąć.

erix

25.09.2009, 11:46:37

A nie lepiej skorzystać z gotowych słowników sprawdzania pisowni...? Chyba są w nich takie mechanizmy. :]

230005

25.09.2009, 11:49:43

Thek, a w czym pisałeś ten syntezator? Tak z ciekawości pytam bo się wziąłem ostro za Javę (ale dopiero przedwczoraj

) i wpadło mi coś takiego do głowy. Da radę zrobić to niej (znaczy dać pewnie się da, kwestia tylko poziomu trudności - bo może akurat to łatwiej byłoby stworzyć powiedzmy w cpp)?

SHiP

25.09.2009, 11:56:14

Pisałem coś podobnego kilka dni temu ale zaprzestałem

. Być może mój algorytm Ci się przyda(nie jest idealny bo to wersja pre-pre-alpha) ale jeśli go zoptymalizujesz to może ładnie działać.

[PHP] pobierz, plaintext 
class SoftHyphenGenerator{
 
	public $htmlOn = false;
	private $samogloski = Array('a', 'ą', 'e', 'ę', 'i', 'o', 'u', 'y');
 
	public static function mbStringToArray ($string) {
		$strlen = mb_strlen($string);
		while ($strlen) {
		    $array[] = mb_substr($string,0,1,"UTF-8");
			$string = mb_substr($string,1,$strlen,"UTF-8");
			$strlen = mb_strlen($string);
		}
	    return $array;
	}
 
	private function zawieraSamogloske($string, $length, $last)
	{
		$startLength = $length;
		for($length--; $length>=0; $length--)
		{
			if($string[$length]=='>')
				$this -> htmlOn = true;
			elseif($string[$length]=='<')
				$this -> htmlOn = false;
			elseif($this -> htmlOn==false)
			{
				if($string[$length]=='y' || $string[$length]=='a')
				{
					if($startLength-$length==1 && in_array($last,$this -> samogloski))
					{
						return 1;
					}
					// nie jestem pewien co do tej zasady ale
					// nie przenosimy do nastepnej lini "ń" występującego tuż po "y"
					// np. młyń-skie ko-ło
					if($string[$length+1]=='ń')
					{
						$length++;
					}
 
					return -($startLength-$length)+1;
 
				}
				elseif(in_array($string[$length], $this -> samogloski))
					return 1;
			}
		}
		return 0;
	}
 
 
	public function addSoftHyphen($text)
	{
		$wordCounter = 0;
		$pieces = array_reverse(explode(' ', $text));
 
		$returnText = Array();
		$this -> htmlOn = false;
		foreach($pieces as $piece)
		{
			$l = mb_strlen($piece,'utf-8');
			// pomijamy wyrazy mające mniej niz 4 litery oraz nazwy własne
			if($wordCounter==0 || mb_strtolower($piece,"utf-8") == $piece)
			{
				$newWord = '';
				// zamiana stringa na tablicę
				$piece = self::mbStringToArray($piece);
 
				$samogloska = false;
				// sprawdzanie kolejnych znaków wyrazu - od konca
				for($l--; $l>=0; $l--)
				{
					if($piece[$l] == '>') $this -> htmlOn = true;
					elseif($piece[$l] == '<') $this -> htmlOn = false;
 
					$newWord = $piece[$l].$newWord;
 
					if($this -> htmlOn == false)
					{
						// jest to samogloska
						if(in_array(mb_strtolower($piece[$l], 'utf-8'), $this -> samogloski))
						{
							$samogloska = true;
						}
						else
						{
							if($samogloska && $l>1 && ($n = $this -> zawieraSamogloske($piece, $l, $last))!=0)
							{
								$spolgloska = true;
								// literki wczesniej zawierają samogloske "y"
								if($n<0)
								{
									while($n<0)
									{
										$l--;
										$newWord=$piece[$l].$newWord;
										$last = array_pop($piece);
										$n++;
									}
									$newWord = '-'.$newWord;
									$samogloska = false;
								}
								else
								{
									// sprawdzanie głosek 2-literowych tak aby ich nie rozdzielać
									switch($piece[$l])
									{
										case 'h':
											$stop = ( mb_strtolower($piece[$l-1])=='c');
											break;
										case 'z':
											$stop = ( mb_strtolower($piece[$l-1])=='c' ||
													  mb_strtolower($piece[$l-1])=='d' ||
													  mb_strtolower($piece[$l-1])=='r' ||
													  mb_strtolower($piece[$l-1])=='s');
											break;
										case 'ź':
											$stop = ( mb_strtolower($piece[$l-1])=='d');
											break;
										case 'ż':
											$stop = ( mb_strtolower($piece[$l-1])=='d');
											break;
										default:
											$stop = ( mb_strtolower($piece[$l-1])=='g');
									}
 
									if(!$stop){
										$newWord = '-'.$newWord;
										$samogloska = false;
									}
								}
							}
						}
					}
					$last = array_pop($piece);
				}
				$returnText[] = $newWord;
				$wordCounter++;
			}
			else
				$returnText[] = $piece;
		}
		return implode(' ',array_reverse($returnText));
	}
}
 
$text = new SoftHyphenGenerator;
echo $text -> addSoftHyphen('Jakis przykładowy tekst');
[PHP] pobierz, plaintext

Gdybyś chciał coś porządniejszego(ale nie pamiętam jak z licencją), to poszukaj wp-typography.

thek

25.09.2009, 12:28:18

Cytat(230005 @ 25.09.2009, 12:49:43 )

Thek, a w czym pisałeś ten syntezator? Tak z ciekawości pytam bo się wziąłem ostro za Javę (ale dopiero przedwczoraj

) i wpadło mi coś takiego do głowy. Da radę zrobić to niej (znaczy dać pewnie się da, kwestia tylko poziomu trudności - bo może akurat to łatwiej byłoby stworzyć powiedzmy w cpp)?

Javą syntezator? No jasne

Raczej trudno powiedzieć czego byś nią nie zrobił

Ja pisałem syntezator w Matlabie, ale tak naprawdę tylko dlatego, że miałem go z góry narzucony. "Silnik" jest niezależny od języka, bo to tak naprawdę operacje na wprowadzonym przez użytkownika stringu. Jeśli przetworzysz go do formy fonemów to potem już tylko "sklejasz" nagrania dźwięku odpowiadające mu. W języku polskim jest bodajże 25 lub 26 fonemów + przerwa. Nagraj je i po przetworzeniu stringu tylko "odczytuj" fonemy i "sklejaj" plik dźwiękowy

Różnica pomiędzy pytaniem a zdaniem oznajmiającym też jest "matematyczna". W trakcie wypowiedzi zmienia się częstotliwość wypowiadanych liter. Ale tu już musiałbyś modyfikować charakterystykę częstotliwościową nagrania w czasie. Zacznij od ustalenia jakie fonemy ma język polski. a potem już zasady języka w stylu:
k-r-z-a-k -> (zamiana na fonemy) -> k-ż-a-k -> (zamiana na fonemy zgodnie z regułami gramatyki) -> k-sz-a-k ("sz" jest jednym z polskich fonemów )
Jak widzisz jest trochę zabawy i czasem musisz zrobić kilka przebiegów by ostatecznie zapisać wyraz. Zazwyczaj jednak 2 przebiegi zrobią wszystko na tip-top. W moim przypadku musiałem sprawdzić czy po "k" nie występuje fonem "ż" bo w wymowie zamieni się on na "sz"

Musisz sam regułki zamian znaleźć. Mój był bez modulacji i po prostu "czytał jak leci" nie zwracając uwagi na pytajniki i wykrzykniki, ale robił im po prostu dłuższe przerwy podobnie jak dla kropek i przecinków. Rozwiązanie problemu to więc:
1. Znaleźć fonemy języka polskiego - w google masz tylko ich ilość, ale nie znajdziesz jakie to konkretnie, więc musisz sam się wysilić

2. Opracować formę zapisu "wyrazów fonetycznych" - raz masz fonemy jednoznakowe (a, b itp.), a innym razem dwu(sz, cz, dź) -> coś jak ja mam w przypadku "krzak"
3. Baza reguł, na podstawie której ustalisz ostatecznie wyraz

Lojalnie ostrzegam, że bez bazy "wyjątków" nie przejdziesz takich słów jak "erzac" czy słów obcych, które nie zawsze są zgodne z polską wymową.

Edit: Jeśli plikami dźwiękowymi byś operował w PHP to w nim także syntezator napisałbyś bez problemu. Tylko konieczność sklejania fonemów w wyrazy i zdania, a przez to operacje na plikach dźwiękowych sprawić mogą trudność programiście jakąś większą używającego języka ze słabym wsparciem multimediów. Ale zawsze po zamianie możesz wyświetlic efekt znów jako string, tak jak ja -> k-sz-a-k

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.