Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: [PHP]Usunięcie niepotrzebnych znaków z tekstu odczytanego z pliku
Forum PHP.pl > Forum > Przedszkole
n0wy
Piszę skrypt, który ma odczytywać tekst z pliku tekstowego, dzielić go na wyrazy i zapisywać jako rekordy do bazy danych.
Niby wszystko działa, ale w niektórych rekordach pojawiają się niestety, jakieś znaki zapytania np.: "?człowiek".
Wydaję mi się, że może to być związane z jakimiś znakami ASCII, które przy zapisie do bazy kończą jako '?'. Otwieram ten plik w notatniku i tam wszytko wygląda ok. Brak jest krzaczków itp.
Przed zapisem do bazy usuwam tekst ze znaków interpunkcyjnych itp:
  1. <?php
  2. $bufor = strtr($bufor, array("\n" => ' ', "r\n" =>' ',"\t" => ' ','?'=>' ','.'=>' ',','=>' ','!'=>' ','('=>' ',')'=>' ','&'=>' ','*'=>' ',';'=>' ',':'=>' ','/'=>' ',''=>' ','['=>' ',']'=>' ','"'=>' ','_'=>' ','''=>' ','%'=>'', '  =>'', '#'=>'','@'=>'','  '=>' ','^'=>'','*'=>'','-'=>' ','   '=>' ','     '=>' ','      '=>' ','>'=>' ', '='=>' ','<'=>' '));
  3. ?>

Także znaki zapytania w tym momencie powinny być wycięte.

Znalazłem taką funkcję:
  1. <?php
  2. $string = preg_replace('/[^(x20-x7F)]*/','', $string);
  3. ?>


Pozbywa się ona tego problemu, lecz niestety dodatkowo usuwa wszystkie polskie znaki, a te chciałbym zachować.
Dodam jeszcze, że kodowanie wszędzie ustawione jest na utf-8.

Z góry dziękuje za wszelką pomoc.
tmka
Cytat(n0wy @ 26.07.2009, 15:58:16 ) *
Dodam jeszcze, że kodowanie wszędzie ustawione jest na utf-8.


Jednak pozwole sobie zapytać, czy ten plik tekstowy też jest w utf-8?
n0wy
Cytat(tmka @ 26.07.2009, 16:58:17 ) *
Jednak pozwole sobie zapytać, czy ten plik tekstowy też jest w utf-8?


Tak na pewno wszędzie jest utf8.
Namierzyłem jeden znak, który powodował znaki zapytania. Był to '„'.
Przydałby się jednak jakiś sposób na pozbycie wszelkiego typu niestandardowych znaków ASCII. W innym pliku skopiowanym z worda znalazło się '¬' i problem się powtórzył.
kilas88
To może lepiej ustawić znaki, które mają pozostać? Np.

Kod
$text = preg_replace('/[^a-z]{1,}/i', ',', $text);
n0wy
Dzięki wielkie;]
Po dodaniu polskich znaków działa wyśmienicie.
wicy
Też próbuję, ale mi nie wychodzi. Jak dostawić te polskie znaki?
Z tekstu chcę wyrzucić wszystko oprócz liter. Potem przed dużymi literami wstawić spacje.
Wyrzucajšc znaki w ten sposób
  1. $tekst = preg_replace('/[^a-zšęćłóńœŸż]/i', '', $tekst);

Zamiast liter Ł i Ć mam �

Z kolei chcšc dodać spacje przed dużymi literami
  1. $tekst = preg_replace(array('/([A-Z])/','źĆĘŁŃÓŒŻ'), ' ${1}', $tekst);

dostaję ostrzeżenie: Unknown modifier '�' in... czyli nie rozpoznawany jest znak Ł i Ć.

Jak więc przeczyœcić i podzielić tekst - 'Abc Def, Ghi,Jkl(Mno,Pqr), Stu/Vwy Zet, Łoœ,Ćma'?
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.