Forum PHP.pl > [HTML][PHP]Parsowanie PHP

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [HTML][PHP]Parsowanie PHP - problem, znaczniki html

dj.bobas

7.04.2010, 16:19:11

Witajcie, postanowiłem ponownie zagościć na forum, gdyż musiałem mój ostatni parser przerobić ze względu na zmianę struktury strony, z której parsowałem dane. I mam obecnie następujący problem.

Parsuję dane z przykładowej strony http://mateusz.pl/czytania/2010/20100407.htm
Najpierw ze znacznika <a href="#czytania">...</a> wyciągam do tablicy nazwy czytań, następnie staram się za pomocą funkcji preg_match_all i odpowiednich wyrażeń regularnych utworzonych na podstawie pozycji z ww. tabeli wyciągnąć interesujące mnie fragmenty.
Fragmenty są w znacznikach (tu nazwa czytania) tu tresc do wyciągnięcia.

I teraz tak:

[PHP] pobierz, plaintext 
      $lessonsListPattern = "|<a href=\"#czytania\">.*</a>|"; //wzorzec zwracajacy liste czytan
      preg_match_all($lessonsListPattern,$site1,$return3);
      $lessons = $return3[0][0];
      $lessonsTab = explode(';',strip_tags($lessons));
[PHP] pobierz, plaintext

i następnie tworzę w zależności od dnia:

[PHP] pobierz, plaintext 
      if ($dzien_czytan==0) {
      $ileCzytan = 3;
      $firstPattern = "|<p>\(".$lessonsTab[0]."\)<br>.*</p>|ismU";
      $secondPattern = "|<p>\(".$lessonsTab[2]."\)<br>.*</p>|ismU";
      $evangelionPattern = "|<p>\(".$lessonsTab[4]."\)<br>.*</p>|ismU";
      } else {
      $ileCzytan = 2;
      $firstPattern = "|<p>\(".$lessonsTab[0]."\)<br>.*</p>|ismU";
      $secondPattern = NULL;
      $evangelionPattern = "|<p>\(".$lessonsTab[3]."\)<br>.*</p>|ismU";
      echo $evangelionPattern;
      }
[PHP] pobierz, plaintext

Dalej wyciągnięcie samej treści robię na zasadzie:

[PHP] pobierz, plaintext 
      preg_match_all($secondPattern, $site3, $tresc2);
      $tresc2[0][0] = ISO88592_2_UTF8($tresc2[0][0]);
      preg_match_all("/<br>.*<\/p>/ismU", $tresc2[0][0], $tresc12);
      echo $tresc12[0][0];
[PHP] pobierz, plaintext

Problem jest w tym, iż działa to tylko za pierwszym razem - jeśli na przykład mam do wyciągnięcia 3 teksty, to pierwszy poprawnie wyciąga, a kolejne 2 tablice do których wczytuję fragmenty wg wzorców są puste... (sprawdzone var_dumpem). Myślałem, że może chodzi o kodowanie, ale dla niepolskich znaków też tak się dzieje. Próbuję już 2 godziny to poprawić i nic. Może ktoś ma pomysł, dlaczego to może nie działać?

Przykład:
<html>
później inne znaczniki
(Dz 3,1-10) tresc czytania 1
cos innego
(Łk 13,13-15) tresc czytania 2 itd....

I po zastosowaniu preg_match_all dla pierwszego wzorca zwraca poprawnie czytanie 1, natomiast w drugim przejsciu petli i wywolaniu wzorca nr 2 nie pokazuje nic. (wzorzec zrobiony analogicznie do poprzedniego)

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.