Forum PHP.pl > Parsowanie wielkiego pliku html

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Parsowanie wielkiego pliku html

metoda

2.03.2010, 15:23:28

Witam. Posiadam plik html, który po eliminacji niepotrzebnych znaczników, składa sie głownie z <div> i <span>. Div'y i span'y mają jakieś atrybuty bądź nie. Wygląda to mniej więcej tak:

[HTML] pobierz, plaintext 
 
<div><span>asd</span><span class="smaller bold">(192206)</span></div>
 <div class="mg1"><span>ZXC</span><span class="smaller">(36137)</span></div>
 <div class="mg1"><span>sadf</span><span class="xtrasmall">(9987)</span></div>
  <div class="mg2"><span>zxC</span><span class="ultrasmall">(382)</span></div>
   <div class="mg3"><span>zXC</span><span class="ultrasmall">(6733)</span></div>
 
<div><span>xyz</span><span class="smaller bold">(192206)</span></div>
 <div class="mg1"><span>asd</span><span class="smaller">(36137)</span></div>
  <div class="mg2"><span>dfg</span><span class="xtrasmall">(9987)</span></div>
  <div class="mg2"><span>weqr</span><span class="ultrasmall">(382)</span></div>
   <div class="mg3"><span>asdf</span><span class="ultrasmal
[HTML] pobierz, plaintext

Jest to pewien katalog kategorii. W <div> jest kategoria głowna, a w <div class="mg1"> jest kategoria podrzędna. Reszta div'ów mnie nie interesuje. Muszę powyciągać tylko te dwa div'y a dokładnie <span> z tych divów.
Co najgorsze chyba, to fakt taki że ten plik html zajmuje jakies 4mln znaków.

Próbowałem podejść do tego wyrażenie regularnym:

[PHP] pobierz, plaintext 
preg_match_all("#<div([^>]*)>(.*?)</div>#s",$input, $out);
[PHP] pobierz, plaintext

ale wtedy pobiera wszystkie div'y.

Udało mi się to w miarę osiągnąc poprzez XML:

[PHP] pobierz, plaintext 
 
function parse_cats(){
 
        $categories=array();
 
        $input=file_get_contents('index.html');
 
        $div_input=strip_tags($input,'<div></div><span></span>');
        //$out_clear=utf8_encode($div_input);
 
        $dom=new DOMDocument();
        $dom->loadHTML($div_input);
        $dom->preserveWhiteSpace=false;
        $sxml = simplexml_import_dom($dom);
        $elem=$sxml->body->div;
        $_flag=false;
        $outxml="";
        foreach ($elem as $node){
 
            if (!$node->attributes()){
                if ($_flag){
                    $outxml.='</cat>';
                }
                $outxml.='<cat name="'.$node->span[0].'">';
                $_flag=false;
 
            }else{
                foreach ($node->attributes() as $att=>$val){
                    if ($att=="class"&&$val=="mg1"){
                        $_flag=true;
                        $outxml.='<subcat>'.$node->span[0].'</subcat>';
 
                    }
                }
            }
        }
        $outxml='<categories>'.$outxml.'</cat></categories>';
        $out=simplexml_load_string($outxml);
        $out->asXML('index_parsed.xml');
 
 
    }
 
parse_cats();
 
[PHP] pobierz, plaintext

Funkcja ta działa dla małego pliku index.html, niestety nie działa przy większym.
Dostaję błąd:

error: Excessive depth in document: 256 use XML_PARSE_HUGE option

Co radzicie

szagi3891

5.03.2010, 20:31:48

[PHP] pobierz, plaintext 
$plik = preg_replace('#^\s+#si' , ""  , $plik);
$plik = preg_replace('#\n\s+#si', "\n", $plik);
 
$plik = preg_replace('#\s+$#si' , ""  , $plik);
$plik = preg_replace('#\s+\n#si', "\n", $plik);
 
$plik = preg_replace('#^\<[^>]+\>#si' , ""  , $plik);
$plik = preg_replace('#\n\<[^>]+\>#si', "\n", $plik);
 
$plik = preg_replace('#\<[^>]+\>$#si' , ""  , $plik);
$plik = preg_replace('#\<[^>]+\>\n#si', "\n", $plik);
[PHP] pobierz, plaintext

Tak to możesz zrobić za pomocą wyrażeń regularnych. W zaproponowanym kodzie stopniowo wycinane jest to co jest zbędne. Oczywiście pewnie się da stworzyć jedno większe wyrażenie ale nie chciało mi się zbytnio kombinować.

Spróbuj tego. Czy to jest jednorazowa operacja przy przetworzeniu tego pliku którą musisz wykonać ?

Pilsener

6.03.2010, 13:01:51

Pliki obrabia się linia po linii:

[PHP] pobierz, plaintext 
$uchwyt = fopen ("/tmp/inputfile.txt", "r");
while (!feof($uchwyt)) {
   $linia = rtrim(fgets($uchwyt));
   //tu kod obrabiający plik
   echo $linia.'<br />';
   }
fclose ($uchwyt);
[PHP] pobierz, plaintext

- ewentualnie co ileś bajtów.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.