Forum PHP.pl > [PHP]usuwanie polskich znaków w stringu

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [PHP]usuwanie polskich znaków w stringu

Gość

12.02.2012, 20:06:04

kiedys widziałem taką fajną funkcję która usuwała polskie znaki, jakies cyruliki i takie tam. istnieje funkcja która mi zwróci true/false w zależności czy string składa się tylko z normalnych znaków i efentualnie cyfr?

wNogachSpisz

12.02.2012, 20:42:10

To w końcu co? W temacie piszesz że chcesz usunąć polskie znaki, natomiast w treści posta wykryć czy string je zawiera. Zdecyduj się.

Gość

12.02.2012, 21:36:16

tak chce wykryć, wybacz mi

-Boria-

12.02.2012, 22:54:00

Spróbuj funkcji stristr()

function validate_polish($input) {
if (!stristr($input, 'ź')) {
return false;
}
return true;
}

wNogachSpisz

12.02.2012, 23:11:30

Powiedz jeszcze czy wiadome jest jaki system kodowania został użyty.
Jeśli tak to rozwiązanie będzie proste, jeśli nie to trzeba będzie się nieco nagimnastykować.

PanBorys

12.02.2012, 23:24:06

a to co napisałem wcześniej nie zadziala?

Można włożyć w tablicę wszystkie polskie znaki w ten sposób:
<?php

$pl_ci='Ździebełkęą';
$arr = array('ą','ę','ż','ź','ć','ś','ł','ó','ń');

foreach($arr as $key => $szukaj_pl) {

if(stristr($pl_ci, $szukaj_pl) != FALSE) {
echo 'wyświetl jeśli znaleziono <br />';
}

}
?>

wNogachSpisz

12.02.2012, 23:45:27

Nie, nie zadziała - skuteczność będzie zależna od zbieżności kodowania danych wejściowych i pliku ze skryptem. Kardynalnym błędem jest umieszczanie w kodzie PHP znaków z poza tablicy ASCII.

camikazee

13.02.2012, 11:51:08

Wyrażeniami regularnymi możesz wykryć łatwo czy ciąg zawiera niedozwolone znaki, a nawet od razu je usunąć.
Taką funkcją np możesz szybko usunąć ogonki.

[PHP] pobierz, plaintext 
strtr($sName, "ĄĆĘŁŃÓŚŻŹśąćęłńóśżź", "acelnoszzsacelnoszz")
[PHP] pobierz, plaintext

wNogachSpisz

13.02.2012, 11:57:38

Cytat(camikazee @ 13.02.2012, 11:51:08 )

Wyrażeniami regularnymi możesz wykryć łatwo czy ciąg zawiera niedozwolone znaki, a nawet od razu je usunąć.
Taką funkcją np możesz szybko usunąć ogonki.

[PHP] pobierz, plaintext 
strtr($sName, "ĄĆĘŁŃÓŚŻŹśąćęłńóśżź", "acelnoszzsacelnoszz")
[PHP] pobierz, plaintext

Ten kod nie zadziała, patrz mój post wyżej.

styryl

13.02.2012, 12:00:26

[PHP] pobierz, plaintext 
 
    function rewrite($string){ 
      $a = array( 'Ę', 'Ó', 'Ą', 'Ś', 'Ł', 'Ż', 'Ź', 'Ć', 'Ń', 'ę', 'ó', 'ą',
                  'ś', 'ł', 'ż', 'ź', 'ć', 'ń' );
      $b = array( 'E', 'O', 'A', 'S', 'L', 'Z', 'Z', 'C', 'N', 'e', 'o', 'a',
                  's', 'l', 'z', 'z', 'c', 'n' );
 
          $string = str_replace( $a, $b, $string );
          $string = preg_replace( '#[^a-z0-9]#is', ' ', $string );
          $string = trim( $string );
          $string = preg_replace( '#\s{2,}#', ' ', $string );
          $string = str_replace( ' ', '-', $string );
          $string = strtolower($string);
          return $string;
    }
 
[PHP] pobierz, plaintext

camikazee

13.02.2012, 12:01:10

Działać, zadziała, kwestia zmiany kodowania.

wNogachSpisz

13.02.2012, 12:07:03

Do dupy z takim programem który raz działa a raz nie.
Wyślesz to przez FTP w trybie ASCII i skrypt nie nadaje się do niczego.
Albo ktoś kiedyś postanowi zajrzeć do skryptu, zmieni jakiś szczegół np. usunie biały znak, potem zapisze nie zwracając uwagi na kodowanie i znowu całość idzie w kibel.

Tak się tego nie robi.

Teraz troszke offtopne, bo autor nie znajduej czasu żeby odpowiedzieć na moje pytanie.

Oto metoda jakiej używam do zamiany diakrytyków na łacińskie odpowiedniki, o ile wiem nie da się lepiej, input musi być w UTF-8.

[PHP] pobierz, plaintext 
<?php
 
require 'I18N/UnicodeNormalizer.php';
$normalizer = new I18N_UnicodeNormalizer(); // z PEAR
 
function diacritic_replace( $s ) {
 
	global $normalizer;
 
	// maps German (umlauts) and other European characters onto two characters before just removing diacritics
	$s    = preg_replace( '@\x{00c4}@u'    , "AE",    $s );    // umlaut Ä => AE
	$s    = preg_replace( '@\x{00d6}@u'    , "OE",    $s );    // umlaut Ö => OE
	$s    = preg_replace( '@\x{00dc}@u'    , "UE",    $s );    // umlaut Ü => UE
	$s    = preg_replace( '@\x{00e4}@u'    , "ae",    $s );    // umlaut ä => ae
	$s    = preg_replace( '@\x{00f6}@u'    , "oe",    $s );    // umlaut ö => oe
	$s    = preg_replace( '@\x{00fc}@u'    , "ue",    $s );    // umlaut ü => ue
	$s    = preg_replace( '@\x{00f1}@u'    , "ny",    $s );    // ń => ny
	$s    = preg_replace( '@\x{00ff}@u'    , "yu",    $s );    // ˙ => yu
 
	// maps special characters (characters with diacritics) on their base-character followed by the diacritical mark
	// exmaple:  Ú => U´,  á => a`
 
	$s = $normalizer->normalize($s, 'NFD', 'UTF-8');
 
	$s    = preg_replace( '@\pM@u'        , "",    $s );    // removes diacritics
 
	$s    = preg_replace( '@\x{00df}@u'    , "ss",    $s );    // maps German ß onto ss
	$s    = preg_replace( '@\x{00c6}@u'    , "AE",    $s );    // Ć => AE
	$s    = preg_replace( '@\x{00e6}@u'    , "ae",    $s );    // ć => ae
	$s    = preg_replace( '@\x{0132}@u'    , "IJ",    $s );    // ? => IJ
	$s    = preg_replace( '@\x{0133}@u'    , "ij",    $s );    // ? => ij
	$s    = preg_replace( '@\x{0152}@u'    , "OE",    $s );    // Œ => OE
	$s    = preg_replace( '@\x{0153}@u'    , "oe",    $s );    // œ => oe
 
	$s    = preg_replace( '@\x{00d0}@u'    , "D",    $s );    // Đ => D
	$s    = preg_replace( '@\x{0110}@u'    , "D",    $s );    // Đ => D
	$s    = preg_replace( '@\x{00f0}@u'    , "d",    $s );    // đ => d
	$s    = preg_replace( '@\x{0111}@u'    , "d",    $s );    // d => d
	$s    = preg_replace( '@\x{0126}@u'    , "H",    $s );    // H => H
	$s    = preg_replace( '@\x{0127}@u'    , "h",    $s );    // h => h
	$s    = preg_replace( '@\x{0131}@u'    , "i",    $s );    // i => i
	$s    = preg_replace( '@\x{0138}@u'    , "k",    $s );    // ? => k
	$s    = preg_replace( '@\x{013f}@u'    , "L",    $s );    // ? => L
	$s    = preg_replace( '@\x{0141}@u'    , "L",    $s );    // L => L
	$s    = preg_replace( '@\x{0140}@u'    , "l",    $s );    // ? => l
	$s    = preg_replace( '@\x{0142}@u'    , "l",    $s );    // l => l
	$s    = preg_replace( '@\x{014a}@u'    , "N",    $s );    // ? => N
	$s    = preg_replace( '@\x{0149}@u'    , "n",    $s );    // ? => n
	$s    = preg_replace( '@\x{014b}@u'    , "n",    $s );    // ? => n
	$s    = preg_replace( '@\x{00d8}@u'    , "O",    $s );    // Ř => O
	$s    = preg_replace( '@\x{00f8}@u'    , "o",    $s );    // ř => o
	$s    = preg_replace( '@\x{017f}@u'    , "s",    $s );    // ? => s
	$s    = preg_replace( '@\x{00de}@u'    , "T",    $s );    // Ţ => T
	$s    = preg_replace( '@\x{0166}@u'    , "T",    $s );    // T => T
	$s    = preg_replace( '@\x{00fe}@u'    , "t",    $s );    // ţ => t
	$s    = preg_replace( '@\x{0167}@u'    , "t",    $s );    // t => t
 
	// remove all non-ASCii characters
	$s    = preg_replace( '@[^\0-\x80]@u'    , "",    $s ); 
 
	return $s;
}
[PHP] pobierz, plaintext

rocktech.pl

13.02.2012, 12:21:43

Witam.

Co do usuwania.

[PHP] pobierz, plaintext 
$charset = "UTF-8";
 
$text = "Zażółć gęślą jaźń";
 
$text = iconv($charset, "ASCII//TRANSLIT//IGNORE", $text);
[PHP] pobierz, plaintext

Co do wykrywania

[PHP] pobierz, plaintext 
mb_detect_encoding($text, 'ASCII', true);
[PHP] pobierz, plaintext

wNogachSpisz

13.02.2012, 12:23:31

Kod

Notice: iconv() [function.iconv]: Wrong charset, conversion from `UTF-8' to `ASCII//TRANSLIT//IGNORE' is not allowed

iconv jest za słabo udokumentowany, szczególnie ten rugi parametr, czarna magia, z tego co pamiętam to jest to też zależne od set_locale. Także blisko ale nadal źle.

Natomiast to drugie jest chyba w porządku.

rocktech.pl

13.02.2012, 12:29:55

@wNogachSpisz

Nie miałem nigdy problemów z iconv.
Może lepiej być nie może

wNogachSpisz

13.02.2012, 12:34:27

Ja mam problem już na wejściu, wywala ERROR

Gość

13.02.2012, 17:07:41

mb_detect_encoding się dobrze spisuje w przypadku nicku. ale przepuszcza znaki specjalne. więc istnieje funkcja gotowa, która mi zwaliduje imię? czyli z kolei przepuści polskie znaki ale nie przepuści innych znaków specjalnych

wNogachSpisz

13.02.2012, 17:20:39

Jeśli kodowanie jest jednobajtowe - bazujące na stornach kodowych - to bardzo łatwo sprawdzić numer konkretnego znaku w tablicy ASCII i tym samym rozpoznać czy jest to litera, cyfra, czy znak specjalny.
Jeśli natomiast kodowanie stosuje kilka bajtów na znak lub co gorsza mieszanej ilości bajtów na znak (jak UTF-8), to sprawa się komplikuje o tyle, że musisz ustalić czy dany bajt to tylko składowa znaku czy cały znak. Dlatego pytam czy dla programu znany jest system kodowania danych wejściowych, od tego zależy wybór optymalnego rozwiązania.

thek

14.02.2012, 08:35:53

Hmmm... A nie pomyślał nikt o zwykłym preg_match? Podajecie zakres znaków ozwolonych i tyle. Jeśli w stringu będzie cokolwiek spoza niego - zwróci Wam false.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.