Forum PHP.pl > dekompresja (gzip) strumienia http

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: dekompresja (gzip) strumienia http

pi_r

15.06.2005, 14:53:33

W skrypcie w pewnym momencie muszę pobrać wiekszą ilość danych z serwera http. Aby usprawnić prace skryptu chcę pobierać z serwera skompresowane dane, wysyłam więc w nagłówku :

Kod

Accept-Encoding: gzip

W odpowiedzi otrzymuje:

Kod

Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 25150
Content-Type: text/html

Następnie pobieram podaną ilość danych do stringa.
Problem zaczyna się, gdy chce dekodowac otrzymane dane, nie radzi z tym sobie funkcja gzuncompress() generując nastepujący błąd:

Kod

Warning: gzuncompress(): data error in [...]update.php on line 113

Efektów także nie widać gdy czytam za pomoca gzread() bezpośrednio z gniazda (zamiast kodu html pojawiają się losowe znaki).

Ktoś zna może jakieś inne rozwiazanie? A może ja gdzieś robię błąd? ;-)

SongoQ

15.06.2005, 15:01:14

Co masz w lini 113?

Wyslij kawalek kodu jak to robisz bedzie latwiej zidentyfikowac blad.

pi_r

15.06.2005, 15:55:27

W małym uproszczeniu:

[PHP] pobierz, plaintext 
<?php
 
$p = fsockopen($host, 80); 
 
fputs($p, $ask);   // wysylam zapytanie
 
do {				   
	$line=fgets($p, 1024);   // odczytuje odpowiedz  
 
	 ...			   // nieistotne, przetwarzanie nagłówków itp.
 
} while ( $line != &#092;"rn\" );
 
$file=fread($p,$length);	// probowalem takze z gzread($p,$length);
 
$file=gzuncompress($file);   // jesli nie uzylem wczesniej gzread(); BTW: jest to linia 113
 
 
?>
[PHP] pobierz, plaintext

Dodam, ze bez kompresji jest wszystko ok.

EDIT:
Problem rozwiązany po przejrzeniu RFC ;-)
1: Dane należy pobierac za pomocą stream_get_contents() zamiast fread(), ponieważ ta druga jest "binarnie bezpieczna"
2: Należy "obciąć" nagłówek, w wielkości 10 bajtów *
3: Należy użyć funkcji gzinflate() do zdekodowania danych

*może być dluższy, ale to już odsyłam do rfc:
http://www.gzip.org/zlib/rfc-gzip.html#file-format

Przykładowy poprawny kod:

[PHP] pobierz, plaintext 
<?php
 
$plik = stream_get_contents($f, $length);  // Pobieramy dane ze strumienia
$plik = substr($plik, 10); // obcinamy naglowek
$plik = gzinflate($plik); // dekodujemy
 
?>
[PHP] pobierz, plaintext

dopy

6.07.2006, 23:21:44

Aktualnie pracuje nad rozpracowaniem tego problemu i niestety zastosowalem sie do rad powyzej, ale i tak coś jest nie tak.

Jak tobie następująco:
- pobieram z socketa poprzez fgets (serwer nie ma php5, wiec czym by pobierac w php4?) do zmiennej
- dziele zmienna poprzez explode, odliczam sobie dlugosc naglowkow
- ucinam naglowki ze zmiennej
- przekazuje zmienna do dekompresji

I to co mi zwraca troche mnie zadziwia - nie mam bledu o zlych danych przekazanych do skryptu, nie ma tez innych komunikatow, jedn zwraca mi...

Cytat

W którym momencie popełniem błąd ?
Pozdrawiam.

------------edit:

Cytat

When retrieving mod_gzip'ed content and using gzinflate() to decode the data, be sure to strip the first 10 chars from the retrieved content.

$dec = gzinflate(substr($enc,10));

tak mowi manual, jednak jak ucinam to 10 znakow, to otrzymuje blad o blednych danych...

NuLL

6.07.2006, 23:49:26

@pi_r - zmien naglowek Content-Type - to co wysylasz to nie jest HTML

Przegladarka to przyjmuje jako HTML a powinna to przepuscic jako dane binarne przeciez

dopy

7.07.2006, 13:00:36

Egh męcze się z tym juz 3 dzień - czuje że robie jakiś głupi błąd... Może ktoś jednak wie co robie źle ?

+ edit:
No nie wierze ze jest to problem nie do rozwiązania :/ Napisałem nawet na 3 zagranicznych forach i wszędzie w moim temacie cisza...

+ rozwiązanie
Po naprawde ciężkich poszukiwaniach, przypadkiem trafiłem na grupy dyskusyjne google, czytając natrafiłem na rozwiązanie:

[PHP] pobierz, plaintext 
<?php
 
  //  my server sends gzipped data if client allows
  $url = "www.byteshift.de";
 
  function gzdecode($string){
	$string = substr($string, 10);
	return gzinflate($string);
  }
 
  function get_gzipped_data($url){
	$http_response = '';
	$fp = fsockopen($url, 80);
	fputs($fp, "GET / HTTP/1.1rn");
	fputs($fp, "Accept-Encoding: gziprn");
 
	fputs($fp, "Host: $urlrnrn");
	while (!feof($fp))
	  $http_response .= fgets($fp, 128);
	fclose($fp);
	return $http_response;
  }
 
  preg_match("/^(.+)r?nr?nw+r?n(.+)$/s",
			 get_gzipped_data($url),
			 $matches);
  $header = $matches[1];
  $body   = $matches[2];
  $html   = gzdecode($body);
		$strlen_uncomp = strlen(file_get_contents("http://$url/"));
		$strlen_decomp = strlen($body);
 
  echo "
  strlen_uncomp: $strlen_uncomp Kb
  strlen_decomp: $strlen_decomp Kb
  =============================
  $html
  ";
?>
[PHP] pobierz, plaintext

W zasadzie pewnie chodzi tutaj głównie o sposób rozdzielenia od nagłówków, ale ważne że działa. To tak dla przyszłych pokoleń.
Pozdrawiam.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.