Forum PHP.pl > Parsowanie strony + wyrażenie regularne....

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Parsowanie strony + wyrażenie regularne....

dj.bobas

13.01.2009, 18:24:07

Witam....

Mam następujący problem: jestem adminem strony parafialnej i mamy dział czytań. Pierwotnie zrobiłem to na zasadzie ręcznego dodawania czytań do bazy, jednak jest to metoda nieefektywna.... Dlatego napisałem parser do pobierania treści z portali z czytaniami, no i mam kłopot.

Próbuję przeparsować nagłowki czytań ze źródła (przykładowy kod, nazwy znaczników specjalnie zmienione):

Kod

Z LISTU DO HEBRAJCZYKÓW: Hbr &nbsp &nbsp 3, 7-14 &nbsp < FONTT COLOR="#FF0000">Zachować wierność Bogu.</FONTT></HH2>

No i zastosowałem wyrażenie

Kod

$pattern = "| .*?|"

aby wyciągnąć fragment "Iz 42,1-4, 6-7"

Niestety nie działa....

Inne typu < DIR > .* < / DIR > lub < H2 > .* działają....

Nie mam na to pomysłu.....

erix

13.01.2009, 18:38:34

http://code.google.com/p/phpquery/

A co do problemu:

Cytat

Niestety nie działa....

Znaki specjalne trzeba escape'ować - preg_quote" title="Zobacz w manualu PHP" target="_manual. Poszukiwany ciąg "nieregularny" w nawias.

dj.bobas

13.01.2009, 20:41:59

Co do problemu to już częściowo rozwiązałem...

Zastosowałem

Kod

$pattern4 = "/[0-9]{1,2},\s[0-9]{1,2}[\-]{0,1}[0-9]{1,2}.?[\s]?[0-9]?[0-9]?[\-]?[0-9]?[0-9]?/";

i zwraca mi już numer czytania....

Nie wiem tylko jak wyciągnąć trzyliterowy skrót sprzed numeru (są tam twarde spacje...)

jak poprzedzam

Kod

[A-Za-z]{1,4}.?

to mi wywala na ekran właśnie nbsp......

erix

13.01.2009, 21:25:58

Ale masz przecież ampersanda (&) przed nbsp, jego weź za punkt zaczepienia.

dj.bobas

7.04.2010, 15:52:45

Cytat(erix @ 13.01.2009, 21:25:58 )

Ale masz przecież ampersanda (&) przed nbsp, jego weź za punkt zaczepienia.

Dzięki za nakierowanie na rozwiązanie....
Repka dla Ciebie...

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.