Forum PHP.pl > Wyrażenie regularne

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Wyrażenie regularne - wzorzec

Shinji

20.03.2010, 11:13:31

Witam,

Potrzebuje utworzyć wzorzec do wyrażenia regularnego i tu odezwała się moja pięta achillesowa. Potrzebuje wyciągnąć z kodu sekwencje takich bloków:

[PHP] pobierz, plaintext 
<tr bgcolor=#ffffff onmouseover="this.style.background='#FF4444'" onmouseout="this.style.background='#ffffff'">
 <td class="wyniki" nowrap>2010-04-02</td>
 <td class="wyniki" nowrap>Polska</td>
 <td class="wyniki">Bałtyk Pomorze</td>
 <td class="wyniki" nowrap>6,4,3</td>
 
 <td class="wyniki" nowrap>last-minute</td>
 <td class="wyniki" nowrap><a href=/web/?page=szukaj3;data1eq=2010-04-02;panstwo=1;region=233;miasto=17680012;results=200;allot=ALL;order=nazwaasc;last=L> <b>Lista hoteli</b></a></td>
</tr>
[PHP] pobierz, plaintext

jednak przejscia do kolejnych linijek są dla mnie kolejnym problemem.

Z góry dzieki za pomoc.

tehaha

20.03.2010, 11:21:19

pokaz jak próbowałeś osiągnąć ten efekt

Shinji

20.03.2010, 13:54:43

[PHP] pobierz, plaintext 
preg_match_all('|<tr bgcolor=#ffffff onmouseover="this.style.background=\'#FF4444\'" onmouseout="this.style.background=\'#ffffff\'">(/\s|/\r)*<td class="wyniki" nowrap>(^<)+</td>(\s|\r)*<td class="wyniki" nowrap>(^<)+</td>(\s|\r)*<td class="wyniki">(^<)+</td>(\s|\r)*<td class="wyniki" nowrap>(^<)+</td>(\s|\r)*<td class="wyniki" nowrap>(^<)+</td>(\s|\r)*<td class="wyniki" nowrap>(.*)</td>(\s|\r)*</tr>|U',$plik,$wycieczki);
[PHP] pobierz, plaintext

ale wywala mi błędy. próbowałem też łopatoligicznie zostawić odstępy tak jak są bez zastępowanai ich \r \s ale też nie pali.

Methestel

20.03.2010, 17:29:04

Polecam modyfikator 'm' albo 's': Pattern Modifiers

Jeszcze bardziej polecam zainteresować się jakąś biblioteką do XML-a (np SimpleXML) i użyć jej do wyciągania danych z wklejonego przez Ciebie kodu.

DiH

20.03.2010, 21:15:56

Jezusie, po co mu do tego jakieś biblioteki?

[PHP] pobierz, plaintext 
preg_match_all("#<td[^>](.*?)</td>#", $string, $matches); 
// $string to przeszukiwany ciag
// $matches to tablica z wynikami
// Ciebie interesuje $matches[0]
[PHP] pobierz, plaintext

Na przyszłość postaraj się użyć wyszukiwarki forum.

Shinji

20.03.2010, 23:17:07

DiH po pierwsze zauważ, że w niektórych tagach <td> pojawia się element nowrap. Po za tym tak czy inaczej potrzebuje jakoś pogrupować wyniki, a nie gdy podobnych bloków bedzie więcej dane mi się zmieszają.

Methestel mógłbyś powiedzieć troche więcej o tych 2 rozwiązaniach w praktyce. Bo nie dokońca rozumiem manuala.

DiH

21.03.2010, 00:19:47

Nie rozumiem, o co chodzi z tym nowrap? Jeżeli zaistnieje kilka takich bloków, to pierwszym wyrażeniem wyciągasz wszystko z <tr>

[PHP] pobierz, plaintext 
#<tr[^>](.*?)</tr>#s
[PHP] pobierz, plaintext

, a następnym (tym, które podałem) ładne dzielisz resztę. I wtedy żaden bałagan Ci się nie zrobi.

Shinji

21.03.2010, 09:34:41

Chodzi o to, że w

[PHP] pobierz, plaintext 
#<tr[^>](.*?)</tr>#s
[PHP] pobierz, plaintext

zapomniałeś o jednym domknięciu Kleene'ego, powinno być jak coś

[PHP] pobierz, plaintext 
#<tr[^>]*>(.*?)</tr>#s
[PHP] pobierz, plaintext

Tak czy inaczej to nie rozwiązuje mojego problemu, gdyż iż ponieważ z kodu z jakiego to wyciagam pojawia się więcej <td></td> które nie są sekwencją bloku. Tak więcej potrzebuje wyrażenia zawierającego cały blok.

Methestel

21.03.2010, 10:31:12

Przykład rozwiązania z zastosowaniem SimpleXML:

[PHP] pobierz, plaintext 
<?php
$sourceCode = '
<table>
      <tr bgcolor=#ffffff onmouseover="this.style.background=\'#FF4444\'" onmouseout="this.style.background=\'#ffffff\'">
      <td class="wyniki" nowrap>2010-04-02</td>
      <td class="wyniki" nowrap>Polska</td>
      <td class="wyniki">Bałtyk Pomorze</td>
      <td class="wyniki" nowrap>6,4,3</td>
      <td class="wyniki" nowrap>last-minute</td>
      <td class="wyniki" nowrap><a href=/web/?page=szukaj3;data1eq=2010-04-02;panstwo=1;region=233;miasto=17680012;results=200;allot=ALL;order=nazwaasc;las
t=L> <b>Lista hoteli</b></a></td>
      </tr>
</table>'; 
		$sourceCode = strip_tags($sourceCode, '<table><tr><th><td>'); //zostawiamy tylko tagi table, tr, td, th
		$sourceCode = preg_replace('/<([a-z]+) ?[^>]*>/i', '<$1>', $sourceCode); //wywalamy wszystkie atrybuty tagow
		$sourceCode = '<?xml version="1.0" encoding="iso-8859-2" ?>'.$sourceCode; //możliwe że będiesz musiał zmienić kodowanie
 
		try {
			$xml = @new SimpleXMLElement($sourceCode);
		} catch (Exception $e) {
			echo '<pre>'.print_r($e).'</pre>'; //prymitywna obsługa błędu :)
		}
 
		foreach ($xml->tr as $tr) {
			echo $tr->td[0].'<br />'.$tr->td[1].'<br />'.$tr->td[2].'<br />'.$tr->td[3].'<br />'.$tr->td[4].'<br />';
		}
?>
[PHP] pobierz, plaintext

Wynik:

[HTML] pobierz, plaintext 
2010-04-02
Polska
Bałtyk Pomorze
6,4,3
last-minute
[HTML] pobierz, plaintext

Można też próbować tak jak Ty próbowałeś zrobić to tylko wyrażeniami regularnymi, ale jest z tym trochę więcej zabawy. Osobiście polecam rozwiązanie którego przykład podałem, ale jeśli koniecznie chcesz to zrobić bez przerabiania na xml albo kod źródłowy strony jest tak zwalony że ciężko jest przerobić go na xml-a daj znać. Coś na to poradzimy

A odnośnie modyfikatorów:
m - zmienia zachowanie '^' i '$' w wyrażeniach regularnych. Bez tego modyfikatora wyrażenie zastosowane do wielolinijkowego tekstu dopasuje '^' i '$' kilkakrotnie na początku i na końcu każdej lini tektu. Z tym modyfikatorem '^' i '$' dopasowywane są tylko raz na początku i na końcu tekstu (czyli tak jak większość ludzi się spodziewa

)
s - kropka w wyrażeniu regularny dopasowuje się także do znaku nowej linii

DiH

21.03.2010, 11:13:03

A czy mógłbyś zatem podlinkować do tego kodu? Chętnie udowodnię, że da się to zrobić samymi wyrażeniami regularnymi. Jeżeli podasz ten kod, zaznacz które komórki mają zostać uwzględnione w wynikach.

Methestel

21.03.2010, 12:28:00

Tylko wyrażenia regularne:

[PHP] pobierz, plaintext 
<?php
$sourceCode = '<table>
      <tr bgcolor=#ffffff onmouseover="this.style.background=\'#FF4444\'" onmouseout="this.style.background=\'#ffffff\'">
      <td class="wyniki" nowrap>2010-04-02</td>
      <td class="wyniki" nowrap>Polska</td>
      <td class="wyniki">Bałtyk Pomorze</td>
      <td class="wyniki" nowrap>6,4,3</td>
      <td class="wyniki" nowrap>last-minute</td>
      <td class="wyniki" nowrap><a href=/web/?page=szukaj3;data1eq=2010-04-02;panstwo=1;region=233;miasto=17680012;results=200;allot=ALL;order=nazwaasc;las
t=L> <b>Lista hoteli</b></a></td>
      </tr>
      </table>';
 
		$matches = array();
		$data = preg_match_all('/<tr ?.*?>.*?<td ?.*?>(.*?)<\/td>.*?<td ?.*?>(.*?)<\/td>.*?<td ?.*?>(.*?)<\/td>.*?<td ?.*?>(.*?)<\/td>.*?<td ?.*?>(.*?)<\/td>.*?<td ?.*?>(.*?)<\/td>.*?<\/tr>/si', $sourceCode, $matches);
 
		unset($matches[0]);
		foreach ($matches as $cols) {
			foreach ($cols as $value) {
				echo $value.'<br />';
			}
 
		}
?>
[PHP] pobierz, plaintext

Wynik:

[HTML] pobierz, plaintext 
2010-04-02
Polska
Bałtyk Pomorze
6,4,3
last-minute
Lista hoteli
[HTML] pobierz, plaintext

DiH

21.03.2010, 12:38:33

[PHP] pobierz, plaintext 
$s = file_get_contents('http://strona.pl');
 
preg_match_all("#<tr[^>](.*?)</tr>#s", $s, $matches);
 
for($i = 0; $i < sizeof($matches[0]); $i++) {
	$e = strip_tags($matches[0][$i]);
	$e = preg_replace("#(\s+)#"," | \r\n",$e);
	echo $e.'<br/>';
}
[PHP] pobierz, plaintext

Pozdrawiam

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.