Forum PHP.pl > DOMDoc || curl

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: DOMDoc || curl - polskie znaki

Czizes

5.10.2010, 14:44:19

Witam,

Mam problem z polskimi znakami (kodowaniem do utf-8) przy używaniu curl'a i domdocument'a przy parsowaniu innej strony. Próbowałem już wielu rozwiązań, m.in. php scraper'a z php.net, podmianą funkcjami kodujacymi itp. Gdy wyświetlam ściągnięte dane poprzez mb_detect_encoding(), część stringów jest faktycznie w utf-8, a część w ASCII. Męczę się już dłuższy czas, dlatego postanowiłem zaciągnąć rady u Was. Poniżej podaję kod (jest to ostatnia wersja z częścią próby poradzenia sobie z problem zaciągniętym na php.net, pominę ten moment):

[PHP] pobierz, plaintext 
$ch= curl_init();
curl_setopt ($ch, CURLOPT_URL, $url );
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch,CURLOPT_VERBOSE,1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch,CURLOPT_POST,0);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 20);
 
$html= curl_exec($ch);
$html1= curl_getinfo($ch);
/*tutaj część odpowiadająca za podmianę meta http-eqiv*/
 
$dom = new DOMDocument() or die( 'Błąd ładowania DOMdocumentu' );
 $dom->preserveWhiteSpace = false;
 $page = @$dom->loadHTML($html) or die ( 'Błąd ładowania linka' );
if ( !$page ) { exit( 'Koniec przeszukiwania' ); }
 
#pobieram wszystkie linki z odpowiednią klasą
$elements = $dom->getElementsByTagName('a');
 
if (!is_null($elements)) {
  foreach ($elements as $element) {
 
	if ( !is_null($element->getAttribute('href') )){
		if ( !is_null( $element->getAttribute( 'class' )) && $element->getAttribute( 'class' ) == 'fn openPreview' ){
			$all[] = $element->getAttribute('href');
		}
	} 
   }
 
for ( $i = 0; $i <= count( $all ) - 1; $i++ ){
#kolejna próba zmiany kodowania
$html=preg_replace('/<head[^>]*>/','<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">', $all[$i]);
 
@$dom->loadHTMLFile( $html );
$xpath = new DOMXpath( $dom );
[...]
}
 
#i dalej wyciąganie danych z kolejnych linków
[PHP] pobierz, plaintext

Za wszelkie podpowiedzi serdecznie dziękuje. Jeżeli czegoś brakuje w powyższym kodzie, chętnie ponownie dodam brakujące elementy.
Pozdrawiam.

zegarek84

5.10.2010, 18:30:54

Cytat

$html=preg_replace('/<head[^>]*>/','<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">', $all[$i]);

wszystko ładnie i pięknie (ta kolejna próba zmiany kodowania ;p) ale Ty to robisz nie na źródle a na linkach wyciągniętych ze źródła ;p ];->

kiedyś (dawniej jak grałem w plemiona) miałem podobny problem - i rozwiązaniem było wstawienie meta bezpośrednio na początku <head>... (ale i wyrażenia regularne tutaj też są nad wyraz)... poza tym o ile mi wiadomo przy nowszej wersji php DOM domyślnie źródło traktuje kodowaniem utf-8

Cytat

$html=preg_replace('/<head[^>]*>/','<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">', $all[$i]);
@$dom->loadHTMLFile( $html );

pomińmy wyrażenie regularne... ale w tym momencie pytanie - korzystasz z tego curl'a czy nie i masz url_open na true ustawiony (jakoś tak się to zwie - trochum wstawiony ;p)... dokładniej to w zmiennej $html tutaj masz adres internetowy ("pełny" z http/www lub nie - jeśli pełny to zapewne bez problemu otwiera daną stronę bez curl'a - ale i bez ciasteczek i plusów związanych z curl'em lub innych tego typu bibliotek)...

w pętli wcześniejszej do tablicy all zapisywałeś wartości atrybutów href...

pobierając nowy dokument (bez udziału curl'a) jeśli brakowało tego meta to go nie wstawiałeś (a jeśli było to w niektórych przypadkach nie wystarczało, że jest i nie jest definiowane w pierwszej kolejności w head...) - w każdym bądź razie wykrycie wartości i innych rzeczy do końca head nie stanowi najmniejszego problemu gdyż tam nie ma znaków specjalnych...

ps. nie wyciszaj błędów - po to one są by coś sygnalizować - zwłaszcza, że szukasz choćby teraz błędów...

Czizes

6.10.2010, 07:31:06

Dzięki za odpowiedź. Zaraz usiąde i pokombinuje na nowo.
To jest już chyba 5ta wersja podejścia do tego problemu i tak to teraz wygląda. Zauważyłem na wielu forach (nie tylko polskich), że sporo osób ma takie same problemy, z którymi sobie radzą najczęściej przy użyciu iconv (co u mnie nie zadziałało). U mnie przy ściąganiu tej zewnętrznej strony część wyciągniętych znaków jest kodowana w ASCII, a mniejsza część normalnie w UTF-8 (które i tak posiadają krzaki). Dziwne.

Dodatkowo się zastanawiałem czy istnieje również możliwość, że winą za takie "krzaczki" można obarczyć na przykład jakiś pośredniczący system operacyjny bądź jeszcze co innego?

CuteOne

6.10.2010, 13:29:48

Dawno się curlem nie bawiłem i mogę się mylić ale po pobraniu strony sprawdź jej kodowanie [$charset = preg_replace()] i wstaw to:

[PHP] pobierz, plaintext 
 
$charset = preg_replace(//wstaw tu regexp, żeby dało się wyciągnąc "charset=utf-8", $page);
header('Content-type: text/html; charset='.$charset);
 
@$dom->loadHTMLFile( $html );
$xpath = new DOMXpath( $dom );
[...]
}
 
[PHP] pobierz, plaintext

Nie jestem pewien ale zapis strony w odpowiednim kodowaniu również wpływa na wyświetlanie "krzaczków"

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.