Forum PHP.pl > [php] preg_match

Pomoc - Szukaj - Użytkownicy - Kalendarz

bluepk

8.01.2014, 09:40:08

Witam,

próbuje na swojej stronie wyciągnąć dane z WOŚPowych aukcji allegro. Niestety wszystko jest okej do momentu, w którym kod przechodzi do nowej linii. Próbowałem użyć str_replace i nic nie pomaga.

Czy mógłby ktoś pomóc rozwiązać problem?

[HTML] pobierz, plaintext 
<td class="col1"><a href="/warsztaty-fotograficzne-z-lidia-popiel-i852705"  
 class="iImg" data-img="http://img01.charitystatic.pl/179847_cce6238_128x96.jpg"></a></td>
[HTML] pobierz, plaintext

Kshyhoo

8.01.2014, 10:06:55

Pokaż, jak to robiłeś.

bluepk

8.01.2014, 10:24:06

próbowałem różnych kombinacji, ale załóżmy

[PHP] pobierz, plaintext 
$content = file_get_contents('http://aukcje.wosp.org.pl/listing?sellerId=672050&order=pd');
$usun = str_replace(array("\n", "\n\r", "\r\n", "\r"), " ", $content);
preg_match_all('[<td class="col1"><a href="/(.*)" class="iImg" data-img="(.*)"></a></td>]', $usun, $wynik);
echo print_r($wynik);
[PHP] pobierz, plaintext

phpion

8.01.2014, 12:46:50

Usuń jeszcze zwielokrotnione spacje. Aktualnie chyba przed class masz 2 spacje (1 we wklejonym przez Ciebie kodzie, 2 po usunięciu znaku nowej linii). Jak to zrobić - poszukaj. W manualu jest przykład, w Googlach też bez problemu znajdziesz. Ewentualnie możesz zamieniać znak końca linii na pusty ciąg i powinno zabanglać.

Methestel

8.01.2014, 12:49:48

Prawdopodobnie w tym konkretnym przypadku masz więcej niż jedną spację między atrybutem 'href' i 'class' a twoje wyrażenie regularne zakłada że jest tylko jedna spacja między atrybutami.

Możesz to rozwiązać np tak:

[PHP] pobierz, plaintext 
    //$content = file_get_contents('http://aukcje.wosp.org.pl/listing?sellerId=672050&order=pd');
    //$usun = str_replace(array("\n", "\n\r", "\r\n", "\r"), " ", $content);
    $usun = preg_replace('/  +/', ' ', $usun); //Wszystkie ciągi spacji zamienia na pojedyńczą spację
    //preg_match_all('[<td class="col1"><a href="/(.*)" class="iImg" data-img="(.*)"></a></td>]', $usun, $wynik);
    //echo print_r($wynik);
[PHP] pobierz, plaintext

... albo tak:

[PHP] pobierz, plaintext 
    //$content = file_get_contents('http://aukcje.wosp.org.pl/listing?sellerId=672050&order=pd');
    //$usun = str_replace(array("\n", "\n\r", "\r\n", "\r"), " ", $content);
    preg_match_all('[<td +class="col1" *><a +href="/(.*)" +class="iImg" +data-img="(.*)" *></a></td>]', $usun, $wynik);
    //echo print_r($wynik);
[PHP] pobierz, plaintext

phpion

8.01.2014, 12:53:31

Sprawdziłem u siebie: pozbycie się zdublowanych spacji pomaga. Dodatkowo musisz dodać u siebie modyfikator zachłanności dla wyrażenia regularnego (U). Śmiga.

em1X

8.01.2014, 15:11:03

Po co się męczyć? Wystarczy wzorzec do źródła dopasować.

[PHP] pobierz, plaintext 
$content = file_get_contents('http://aukcje.wosp.org.pl/listing?sellerId=672050&order=pd');
 
preg_match_all('#<td class="col1"><a href="(.*?)"\s*class="iImg" data-img="(.*?)">#', $content, $aukcje);
$wynik=array_combine($aukcje[1], $aukcje[2]);
 
echo '<pre>';
foreach ($wynik as $url => $img) {
    echo $url,' - ',$img,'<br>';
}
[PHP] pobierz, plaintext

shakugan45

9.01.2014, 22:17:06

Nie chcę robić niepotrzebnego spamu, więc piszę tutaj:
jak wyciągnąć za pomocą preg_match_all coś spomiędzy znaczników <strong> </strong> ?
Próbowałem już na wiele sposobów ale za każdym razem wyświetla mi że znalazło tylko 2 wyniki podczas gdy na stronie jest ich koło 100

[PHP] pobierz, plaintext 
preg_match_all("/<strong>([^`]*?)<\/strong>/",$pg,$tytul);
[PHP] pobierz, plaintext

em1X

9.01.2014, 22:47:24

Cytat(shakugan45 @ 9.01.2014, 22:17:06 )

[PHP] pobierz, plaintext 
preg_match_all("/<strong>([^`]*?)<\/strong>/",$pg,$tytul);
[PHP] pobierz, plaintext

[PHP] pobierz, plaintext 
preg_match_all('#<strong>(.*?)</strong>#sm', $pg, $wyniki);
 
echo '<pre>';
print_r($wyniki);
[PHP] pobierz, plaintext

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.