Forum PHP.pl > [PHP] Cenzura

Pomoc - Szukaj - Użytkownicy - Kalendarz

marcin0077

10.03.2010, 14:55:53

Witam

Mam shoutboxa i zrobiona cenzurę. Cenzuruję wpisane słowa ale chciałbym zrobić ze np po znalezieniu zakazanego słowa skrypt cenzurował całą wiadomość.
Może ktoś pomóc?

kod cenzury

[PHP] pobierz, plaintext 
	function censor($str) {
		global $prefs;
 
		$cWords = explode(',', $prefs['censorWords']);
		$words = explode(' ', $str);
		$endings = '|ed|es|ing|s|er|ers';
		$arrEndings = explode('|', $endings);
 
		foreach ($cWords as $cWord)	foreach ($words as $i=>$word) {
			$pattern = '/^(' . $cWord . ')+(' . $endings . ')\W*$/i';
			$words[$i] = preg_replace($pattern, str_repeat('*', strlen($word)), $word);
		}
 
		$i = implode(' ', $words);
		$cen = array('********');
		$a = str_replace($cen, "", $i);
		return $a;
	}
[PHP] pobierz, plaintext

phpion

10.03.2010, 15:03:46

Spójrz na 4 parametr w str_replace. Jeżeli zwróci wartość większą od 0 to znaczy, że coś zostało ocenzurowane (czyli był wulgaryzm). W takiej sytuacji zwróć coś innego niż $a (np. pusty ciąg albo NULL).

marcin0077

14.03.2010, 21:51:40

przy zmianie parametru a$ zmienia wszystkie wiadomości te dobre też no chyba że ja coś źle robię

jakieś dalsze propozycje?

thek

15.03.2010, 10:41:08

Pytanie więc.. Czy Ty posyłasz do cenzury wszystkie wiadomości naraz? Bo z tego co piszesz tak wynika. Jeśli tak, to musisz zrobić rozgraniczenie na osobne wiadomości wpierw i dopiero je cenzurować. Inaczej nie wyłapiesz którą poddać całkowite cenzurze, a którą nie. Wtedy możesz zastosować wspomniany przez phpiona 4 parametr str_replace. Poza tym w podanym przez Ciebie kodzie zrobiłem mała poprawkę, bo przy przeklejaniu wcięło Ci zamykający apostrof za gwiazdkami. Miało być:

[PHP] pobierz, plaintext 
$cen = array('********');
[PHP] pobierz, plaintext

było

[PHP] pobierz, plaintext 
$cen = array('********);
[PHP] pobierz, plaintext

marcin0077

15.03.2010, 22:12:18

tak wszystkie słowa razem, wygląda to tak:

[PHP] pobierz, plaintext 
$cen = array('słowo1', 'słowo2.', 'słowo3', 'słowo4', 'słowo5');
[PHP] pobierz, plaintext

z tym apostrofem to moderator jak usuwał przekleństwo to usunął też apostrof

to co phpion napisał to nie rozumiem - nie umiem sobie z tym poradzić

pomoże ktoś z tym rozdzieleniem bo patrze, czytam ale nie czaje zbytnio jak to zrobić
można by to rozdzielić na 2 grupy wiadomości które cenzuruje całe oraz wiadomości które cenzuruje tylko dane słowo

thek

15.03.2010, 23:04:46

Nie chodzi mi tutaj o to czy wszystkie słowa razem, bo to "rozumie się samo przez się". Pytałem się czy wszystkie wiadomości z shouta, czy tylko od pojedynczego usera. To co opisał phpion to rzadko używany 4 parametr wspomnianej funkcji. Zawiera on informację ile razy str_replace się wykonało w przetwarzanym ciągu. Jeśli w wyniku masz 0 to super - brak wulgaryzmow. Jeśli jest coś więcej to znaczy że wulgaryzm był. Jeśli censor jest uruchamiane dla każdej wiadomości z osobna to w wyniku wystarczy, że do zmiennej $a podepniesz informację, że wiadomość zawiera wulgaryzm i została ocenzurowana. jeśli censor od razu wszystkie wiadomości sprawdza to musisz tak kod zmodyfikować, by rozpoznawać osobne wiadomości.

Volume

15.03.2010, 23:06:42

hmm a ja nie rozumiem czemu cenzurowac cala widomosc jesli raz ktos uzuyje niecenzurowanego slowa, czasami trzeba ( ...;] ) no a jesli portal tak bardzo nie pochwala tego typu lacin niech funduje to tylko wspominanym str_replace..

Methestel

16.03.2010, 03:13:03

Pozwoliłem sobie zmierzyć się z problemem cenzury i osobiście rozwiązałbym to w ten sposób:

[PHP] pobierz, plaintext 
/**
 * Cenzura
 * @param $content Tekst do cenzury
 * @param $censorshipPatternsArr Tablica tablic asocjacyjnych z polami: pattern, replace
 * @param &$count Ilość ocenzurowanych słów
 * @return Ocenzurowany tekst
 */
function censorship($content, $censorshipConfig, &$count = 0) {
	$count = 0;
	for ($i = 0, $max = count($censorshipConfig), $n = 0; $i < $max; $i++, $count += $n, $n = 0) {
		$pattern = $censorshipConfig[$i]['pattern'];
		$replace = $censorshipConfig[$i]['replace'];
		$content = preg_replace($pattern, $replace, $content, -1, $n);
	}
	return $content;
}
[PHP] pobierz, plaintext

Przykład użycia:

[PHP] pobierz, plaintext 
$config = array(
	array('pattern' => '/admin(\W+)/si', 'replace' => 'bóg$1'),
	array('pattern' => '/Admin(\w+)/s', 'replace' => 'Bog$1'),
	array('pattern' => '/admin(\w+)/si', 'replace' => 'bog$1'),
	array('pattern' => '/m\W*o\W*t\W*y\W*l\W*a\W*n\W*o\W*g\W*a/si', 'replace' => '!@#$'),
	array('pattern' => '/ktury(\w+)/si', 'replace' => 'który$1')
);
 
$text = 'Motyla noga!!! admin musi zbanować ten tekst. MoTyla.NoGa!!!. Adminowi się nie chce tego robić ręcznie. M.O.T.Y.L.A   N.O.G.A!';
$count = 0;
 
echo 'Przed: '.$text.'<br />';
echo 'Po: '.censorship($text, $config, $count).'<br />';
echo 'Ocenzurowano wyrazów: '.$count;
[PHP] pobierz, plaintext

Wynik:

[HTML] pobierz, plaintext 
Przed: Motyla noga!!! admin musi zbanować ten tekst. MoTyla.NoGa!!!. Adminowi się nie chce tego robić ręcznie. M.O.T.Y.L.A N.O.G.A!
Po: !@#$!!! bógmusi zbanować ten tekst. !@#$!!!. Bogowi się nie chce tego robić ręcznie. !@#$!
Ocenzurowano wyrazów: 5
[HTML] pobierz, plaintext

Moim skromnym zdaniem jest to rozwiązanie proste i bardzo elastyczne i prawdopodobnie wydajniejsze od twojego. Polecam

thek

16.03.2010, 09:16:51

Jego rozwiązanie jest dobre... dla języka angielskiego (chodzi o końcówki)

Z polskim sprawuje się nieco gorzej. Twój sposób Methestel to niestety masa wpisów i masa wyrażeń regularnych do wykonania. Każdy wyraz to byłoby osobne a przy kilkuset już byłoby zapewne odczuwalne to, nie mówiąc o tysiącach

Nie wyobrażam sobie ręcznego ustawiania tego wszystkiego, pisania tych wszystkich wyrażeń. To co proponujesz jest już bliższe Tezaurusowi niż prostemu cenzurowaniu.

marcin0077

16.03.2010, 13:59:28

Cytat(Volume @ 15.03.2010, 23:06:42 )

chodzi mi bardziej o cenzurę adresów www dlatego jak ktoś wpisze coś co zawiera http, www, .pl, .com, .eu itd. to żeby cenzurowało cała wiadomość

thek

16.03.2010, 14:17:04

No to tu już najlepsze wyrażenia regularne wyszukujące adresu

Znajdzie takowy - wstawia zamiast tego http://tu_był_link czy coś w ten deseń.

marcin0077

16.03.2010, 17:44:02

Cytat(thek @ 16.03.2010, 14:17:04 )

No to tu już najlepsze wyrażenia regularne wyszukujące adresu

Znajdzie takowy - wstawia zamiast tego http://tu_był_link czy coś w ten deseń.

tylko w tym momencie jak będzie taki tekst:
Super Gry, Programy, Filmy, Porno tylko w http://www.jakas_strona.pl to wymoderuje sam adres a opis zostanie
a poza tym w cenzurze mogę sobie zrobić różne kombinacje takie jak: www, w_w_w, w w w, w.w.w, w,w,w itd. bo takich kombinacji też będzie a nie wiem jak to z tymi wyrażeniami hmm?

Methestel

16.03.2010, 18:00:19

Cytat(thek @ 16.03.2010, 09:16:51 )

Jego rozwiązanie jest dobre... dla języka angielskiego (chodzi o końcówki)

Nie wyobrażam sobie ręcznego ustawiania tego wszystkiego, pisania tych wszystkich wyrażeń. To co proponujesz jest już bliższe Tezaurusowi niż prostemu cenzurowaniu.

Regexp-y wykonywane są na całej wypowiedzi, nie na poszczególnych wyrazach dzięki czemu ilość regexp-ów zmniejsza się (a nie zwiększa) i to dość znacznie. Powiedzmy że mamy wypowiedz złożoną z 100 wyrazów. Cenzurujemy powiedzmy 5 wyrazów. U kolegi wykona się łącznie 500 regexp-ów (zagnieżdzona pętla foreach) u mnie za to tylko 5.
Ustawianie tego jest tak samo trudne jak u kolegi. Jeśli chcę cenzurować n słów to będę miał n wpisów. W przykładzie poza cenzurowaniem pokazane są też inne możliwości jakie daje moje rozwiązanie tj. zamiana tekstu, poprawianie typowych błędów. W bardzo łatwy sposób można też dodać to czego kolega potrzebuje czyli cenzurowanie linków w tekstach. No i na koniec to na czym koledze zależało czyli licznik ocenzurowanych słów.

Proponuje jeszcze raz przeanalizować obydwa rozwiązania.

thek

16.03.2010, 20:29:41

Tak, ale u Ciebie także. Jakim cudem? Ano takim, że ma on przykładowo X słów z Y końcówkami. Słówko "cod" zostanie sprawdzone pod kątem występowania jako słowa:
cod, coded, codes, coding, cods, coder, coders
A co u Ciebie? Ty każde z nich piszesz jako osobny regexp (!) Nadal nie widzisz, że oba rozwiązania wcale nie są bardzo inne? Ja patrząc z boku tak to widzę. Ty jako użytkownik swojego rozwiązania tego nie zauważasz, zachłystując się rzekomo mniejszą ilością regexp. Ale to tylko złudzenie. Napisz teraz swoje tak, by objęło owo X wyrazów wraz z Y możliwymi końcówkami swoją metodą

Pochlastasz się przy pisaniu regexp numer 432

marcin0077

16.03.2010, 22:04:29

te końcówki można chyba zlikwidować łatwo i nie będzie z "regexpami" problemu

Methestel

17.03.2010, 07:38:28

Cytat(thek @ 16.03.2010, 20:29:41 )

Pochlastasz się przy pisaniu regexp numer 432

No i dalej nie przyjrzałeś się dokładnie rozwiązaniom

Cytat

Ty każde z nich piszesz jako osobny regexp (!)

Oh, rly?

[PHP] pobierz, plaintext 
$config = array(
array('pattern' => '/(\W+)cod(|ed|es|ing|s|er|ers)(\W+)/si', 'replace' => '$1***$2$3 ')
);
[PHP] pobierz, plaintext

albo jeszcze lepiej (to załatwia wszystkie końcówki)

[PHP] pobierz, plaintext 
$config = array(
array('pattern' => '/(\W+)cod(|\w+)/si', 'replace' => '$1***$2')
);
[PHP] pobierz, plaintext

i sprawa załatwiona. Nie muszę rozbijać wypowiedzi na tablicę wyrazów przy pomocy explode() i nie muszę generować za każdym razem wyrażenia regularnego. Jeśli nadal chcesz się kłócić co jest szybsze możesz to przetestować. Jeśli nie będzie Ci się chciało a dalej będziesz pisał że w w moim rozwiązaniu wykonuje się więcej regeqpów po powrocie z roboty Ci to sam udowodnie

Cytat

Napisz teraz swoje tak, by objęło owo X wyrazów wraz z Y możliwymi końcówkami swoją metodą winksmiley.jpg Pochlastasz się przy pisaniu regexp numer 432 winksmiley.jpg

Proszę bardzo:

[PHP] pobierz, plaintext 
$config = array(
array('pattern' => '/(\W+)wyraz_1(|\w+)/si', 'replace' => '$1*****$2'),
array('pattern' => '/(\W+)wyraz_2(|\w+)/si', 'replace' => '$1*****$2'),
array('pattern' => '/(\W+)wyraz_3(|\w+)/si', 'replace' => '$1*****$2'),
array('pattern' => '/(\W+)wyraz_4(|\w+)/si', 'replace' => '$1*****$2'),
array('pattern' => '/(\W+)wyraz_X(|\w+)/si', 'replace' => '$1*****$2')
);
 
//albo
 
$config = array(
array('pattern' => '/(\W+)(wyraz_1|wyraz_2|wyraz_3|wyraz_4|...|wyraz_X)(|\w+)/si', 'replace' => '$1*****$3'),
);
 
[PHP] pobierz, plaintext

Jakoś można się wyrobić nawet w jednym regexpie

Może po prostu nie do końca zdajesz sobie sprawę jakie możliwości dają wyrażenia regularne :/

marcin0077

23.03.2010, 09:52:47

odświeżam gdyż nadal nie wiem jak zrobić cenzurę na całe wiadomości

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.