Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: Pobieranie treści ze strony
Forum PHP.pl > Forum > PHP
nemo223
Mam problem polegający na pobieraniu treści mojej strony WWW. Chciałbym jedynie pobrać tekst, a nie znaczniki XHTML. Z wycinaniem już sobie poradziłem ponieważ <code>użyłem strip_tags</code>, tylko że potem zostają mi w treści zawartość arkusza stylów i skrypty JS.

Można to wyciąć za pomocą ereg_replace tylko właśnie nie wiem jakiego wyrażenia użyć.
Spawnm
moze najpierw z z <body> wyciągnąć wszystko czyli coś ala $strona=preg_replace( "<body>(.*)</body>","$1",$strona);
i potem strip_tags smile.gif
zegarek84
poniższy skrypt usuwa komentarze i skrypty js bedące pomiedzy tagami <script......
  1. <?php
  2. $tresc_dokumentu=''; //tu jest pusta - musisz sobie jakkolwiek wczytać
  3.  
  4.  
  5. $usun = array(
  6. '/<!--.*?-->/is',
  7. '//*.*?*//is',
  8. '/<script.*?</script>/is'
  9. );
  10. $text = preg_replace($usun, '', $tresc_dokumentu);
  11. echo $text;
  12. ?>

pozatym jeśli nie potrzebujesz ani jednego znacznika, wyróżnika, tylko czyściuteńki tekst to można bez formatowania go zwrócić jeszcze z body za pomocą mniej więcej takiej konstrukcji:
  1. <?php
  2. $file='http://pl.wikipedia.org/wiki/PHP';
  3. $txt=file_get_contents($file);
  4. $tresc =  new DOMDocument();
  5. @$tresc->loadHTML($txt);
  6. $txt=$tresc->getElementsByTagName('body')->item(0)->nodeValue;
  7. $usun = array('/<!--.*?-->/is','//*.*?*//is','/<script.*?</script>/is');
  8. $txt = preg_replace($usun, '', $txt);
  9. echo '<pre>'.$txt.'</pre>';
  10. ?>
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.