Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: [XML] DOM i konwersja z UTF-8 do ISO-8859-2
Forum PHP.pl > Forum > XML, AJAX
spyro
Witam.

Moja aplikacja bazuje na UTF-8. Baza danych w UTF-8, wszystkie pliki językowe w UTF-8. Wszystko jest pięknie i ślicznie. Zero problemów z polskimi znakami.

Jednakże, pojawiła się konieczność eksportu niektórych danych do XML, który musi mieć encoding w ISO-8859-2. Do tego celu wybrałem DomDocument, ponieważ na pierwszy rzut oka dobrze radził on sobie z konwersją no i zachowuje zasady obiektowości.

Niestety plik XML został odrzucony przez importującego dane. Podany powód: zbyt duża ilość znaków w jednym z tagów. Zliczając znaki ich ilość była zgodna z dokumentacją, dlatego dobrałem się HexEditorem do wyeksportowanego pliku.

Okazało się, że polskie znaki zapisywane są na dwóch bajtach i wyglądają, jak te z UTF-8.

Próbowałem ręcznie konwertować plik XML zwrócony jako string (metodą DomDocument::saveXML()) metodą mb_convert_encoding, ale w wyniku otrzymuję (niezależnie od podanego kodowania w parametrze tej funkcji) string kodowany w ASCII, czyli bez polskich znaków.

Pytanie: Jak poprawnie zwrócić plik XML posiadający jeden bajt na polski znak, poprawnie zakodowany w ISO-8859-2?

PS. Ustawiam nagłówek XML i kodowanie:
  1. header("content-type: text/xml; charset=ISO-8859-2");


Z góry dziękuję za pomoc!
nospor
Ja do konwersji uzywam http://pl2.php.net/manual/en/function.iconv.php
zegarek84
mb_convert_encoding -> Supported Character Encodings
spyro
Jak już napisałem, te metody nie dziełają (mb_convert_encoding oraz iconv).

Cytat(spyro @ 11.01.2011, 11:26:57 ) *
Próbowałem ręcznie konwertować plik XML zwrócony jako string (metodą DomDocument::saveXML()) metodą mb_convert_encoding, ale w wyniku otrzymuję (niezależnie od podanego kodowania w parametrze tej funkcji) string kodowany w ASCII, czyli bez polskich znaków.

nospor
Cytat
Jak już napisałem
Pisales tylko o jednej smile.gif
Mi tam iconv zawsze dzialalo. Moze źle cos robisz. Pokaz lepiej caly kod
spyro
iconv się wysypuje (prawdopodobnie dlatego, że ten string jakoś jest już magicznie przekonwertowany winksmiley.jpg )

Kod:
  1. public function render($element=Null)
  2. {
  3. // Jeśli w konfiguracji ustawiony jest przełacznik czyszczenia bufora wyjściowego:
  4. if(Core::config('xml.clean_output'))
  5. {
  6. // Oczyść bufor wyjściowy:
  7. }
  8.  
  9. if(Core::config('xml.set_header'))
  10. {
  11. header("content-type: ".Core::config('xml.content_type')."; charset=".Core::config('xml.encoding'));
  12. }
  13.  
  14. // Jeśli wygenerowany plik DOM ma być przesłany do ściągnięcia:
  15. if(Core::config('xml.force_download'))
  16. {
  17. header('Content-Disposition: attachment; filename="'.Core::config('xml.filename').'";');
  18. }
  19.  
  20.  
  21. return is_null($element) ? $this->document->saveXML() : $this->document->saveXML($element);
  22. }



Bład przy iconv:

Nieobsługiwany PHP Error: iconv() function.iconv: Detected an illegal character in input string w pliku application/controllers/export.php w lini 169
zegarek84
mało próbujesz, mało kodu pokazujesz itd... pokazujesz kod, piszesz o iconv oraz mb_... a w kodzie nic nie ma... symbole możesz także pozamieniać na encje np. albo za pomocą wskazanego mb_convert_encoding albo np. za pomocą mb_encode_numericentity - nie podałeś w zasadzie nawet kodu konwersji tylko metodę w której wysyłasz nagłówki wymuszające download oraz zwracasz wartość tego xml'a...
spyro
Oj, był ten kawałek kodu. Zjadło go podczas edycji postu. Jakieś dziwne krzaki się pokazują zamiast kodu i nie można zapisywać posta, dlatego musiałem dodać na nowo cały kod. Zapomniałem o najważlniejszym:
  1. echo mb_convert_encoding($Dom->render(), 'ISO-8859-2', 'UTF-8');


Podsumowując:

1. Buduję DomDocument ustawiając kodowanie i wersję:
  1. new DOMDocument('1.0', 'ISO-8859-2')

2. Tworzę węzły wg danych pobranych z bazy (baza w UTF-8).
3. Renderuję plik XML na ekran, wysyłając przy tym odpowiednie nagłówki.
4. Zwrócony dokument w postaci string próbuję przekonwertować za pomocą iconv lub mb_convert_encoding. Jednakże, mb_convert_encoding usuwa polskie znaki i string zawiera tylko znaki ASCII. Iconv zaś powiadamia mnie błędem, że napotkał na nieznany znak.
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.