Forum PHP.pl > Wyciąganie zawartości ze strony.

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Wyciąganie zawartości ze strony.

Kashikumek

19.05.2015, 14:55:18

Witam !
Otóż posiadam taki kod>

[PHP] pobierz, plaintext 
 <?php
$file = fopen("page.xml", "w");
$c = curl_init();
curl_setopt($c, CURLOPT_URL, "url.strony");
curl_setopt($c, CURLOPT_FILE, $file);
curl_exec($c);
curl_close($c);
fclose($file);
?>
[PHP] pobierz, plaintext

Który elegancko zapisuje mi całą strone jako xml.. no właśnie ! a czy jest możliwość aby zmodyfikować kod , tak aby zapisywał w pliku page.xml tylko zawartość znacznika class albo div ?

Czy sama edycja w/w kodu nie wystarczy ? czy będe musiał użyć czegoś jeszcze ?

Comandeer

19.05.2015, 15:14:27

Będziesz musiał użyć DOM i prawdopodobnie XPath

damian.1923

21.05.2015, 10:39:01

polecam to:
http://simplehtmldom.sourceforge.net/
prosta składnia, podobna do CSS i JQuery,
możliwości daje potężne

Comandeer

21.05.2015, 14:51:10

@damian.1923 a ja właśnie nie polecam, bo nie radzi sobie z bardziej skomplikowanym HTML-em (np. nie rozumie *, wyciągnięcie DOCTYPE graniczy z cudem, o obsłudze błednego HTML zgodnie ze specką to można zapomnieć) i w dodatku traktuje go jako string -> http://stackoverflow.com/a/1732454. Jak już to od siebie polecę duet od Symfony: DOMCrawler + CSSSelector

qweluke

21.05.2015, 15:35:09

@Comandeer ale kolega @Kashikumek chce tylko zawartość(i) jakichś div'ów (czy tam klas) więc mu to w zupełności wystarczy, tym bardziej że ta biblioteka jest banalnie prosta i zrobi to w kilku linijkach

damian.1923

21.05.2015, 16:13:56

@Comandeer, dzięki za uświadomienie, nie miałem nigdy problemów z tą biblioteką, ale pewnie nie robiłem tak zaawansowanych rzeczy jakich potrzebowałeś.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.