Forum PHP.pl > [php]wyciąganie tekstu ze strony

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [php]wyciąganie tekstu ze strony

skabszo

2.07.2007, 08:29:48

witam mam pytanie otóż robię stronę dla znajomego który zajmuje się handlem organów kościelnych. Jakbyście mogli zerknąć na tę stronę byłbym wdzięczny - http://www.ahlbornorgans.com/eng/products/..._regted_eng.htm - chodzi o te wszystkie dane, to są tzw rejestry. I tu moje pytanie - czy da się jakoś zrobić by wyciągnąć z tego źródła sam tekst? bo próbowałem tak:

[PHP] pobierz, plaintext 
<?php
$plik=file("http://adres.bla.pl");
 
for($x<180; $x<300; $x++)
{
  echo $plik[$x];
  }
?>
[PHP] pobierz, plaintext

ale niestety takie cóś to pobiera wszystko łącznie ze źródłem i tu dochodze do problemu gdyż w źródle są błędy np stosowanie znacznika nobr który się nie waliduje, a głównym założeniem strony była pełna walidacja. Dotychczas mi się to udawało jednak teraz nie bardzo wiem jak to przejść. Wiem że moge skopiować tekst, wkleić do worda i zapisać jako pdf ( to w ostateczności ) ale chciałbym jakoś to spróbować zrobić właśnie metodą html/php. A że php dopiero się zaczynam uczyć toteż moja wiedza ograniczona jest do minimum. Próbowałem z File_get_contents(); ale nie wyszło..

webdice

2.07.2007, 08:56:36

Musisz użyć wyrażeń regularnych.

skabszo

6.07.2007, 20:39:38

<myśli> mógłbyś ciut jaśniej? bo przeczytałem na php że służy ta funkcja do wypisywania ciągu znaków ale to czy ja będę musiał samemu to wszystko wklepywać czy tekst bedzie pobierany ze strony?

mhm nikt nie wie?;/

strife

6.07.2007, 20:58:02

Za pomocą odpowiednich wyrażeń regularnych jesteś w stanie wyciągnać co tylko chcesz z tej strony, z pominięciem źródła, wyciągniesz tylko tekst. Poczytaj poszukaj, jak już coś wymyślisz i dalej będziesz miał problemy opisz dokładnie z czym to pomożemy Ci dalej

preg_match_all" title="Zobacz w manualu PHP" target="_manual

Pozdrawiam.

skabszo

7.07.2007, 10:18:56

kurcze co tu jest źle?

[PHP] pobierz, plaintext 
<?php 
$url = 'http://www.ahlbornorgans.com/eng/products/organum/organum3_regted_eng.htm';
$tekst = file_get_contents($url);
preg_match_all('@<div class="featReg">(.*)<!--end content -->@iU', $tekst, $wynik); 
print_r($wynik[1]);
?>
[PHP] pobierz, plaintext

bo doczytałem troszkę w google o tym i coś takiego wykombinowałem ale nie działa - wyświetla się tylko Array()

strife

7.07.2007, 10:34:34

Ponieważ zwracane wyniki z tej funkcji leżą w tablicy wielowymiarowej.

[PHP] pobierz, plaintext 
<?php
$result[0][1]
?>
[PHP] pobierz, plaintext

Aby zobaczyć jakie dane zostały wyciągnięte użyj

[PHP] pobierz, plaintext 
<?php
// ...
echo '<pre>';
var_export($wynik);
echo '</pre>';
?>
[PHP] pobierz, plaintext

I masz jak na tacy wszystko. :]

Pozdrawiam.

skabszo

7.07.2007, 10:51:58

<hmm> ja chyba robie coś nie tak ( wybacz moją niewiedzę ) zrobiłem tak jak napisane ( tzn tak mi sie zdaje ) i otrzymuje tym razem

array (
0 =>
array (
),
1 =>
array (
),
)

:|

[PHP] pobierz, plaintext 
<?php 
$url = 'http://www.ahlbornorgans.com/eng/products/organum/organum3_regted_eng.htm';
$tekst = file_get_contents($url);
preg_match_all('@<div class="featReg">(.*)<!--end content -->@iU', $tekst, $wynik);
print_r($wynik[0][1]);
?>
<div style="width:80%;text-style:italic;">
<?php
echo '<pre>';
var_export($wynik);
echo '</pre>';
?>
</div>
[PHP] pobierz, plaintext

strife

7.07.2007, 11:17:43

[PHP] pobierz, plaintext 
<?php
// ...
$tekst = file_get_contents($url);
preg_match_all('@<div class="featReg">(.*)<!--end content -->@siU', $tekst, $wynik);
echo '<pre>';
var_export($wynik); // $wynik[0][0]
echo '</pre>';
?>
[PHP] pobierz, plaintext

Teraz musisz te dane obrobić sobie ( jeśli chcesz się pozbyć tagów ), czyli w podobny sposób wyciągasz dane, mogą Ci się też przydać operacje na string'ach - odsyłam do manuala. Jeszcze trochę pracy przed Tobą

Pozdrawiam.

skabszo

8.07.2007, 09:53:11

o dzieki:) powiedz mi tylko jedno - czemu jak stosuje ten skrypt to dane wyciągniete są zduplikowane? tzn no wpierw pojawiają się raz później odstep i znow? taka jest wlasnosc preg_match_all?

strife

8.07.2007, 16:58:04

Cytat(skabszo @ 8.07.2007, 10:53:11 )

o dzieki:) powiedz mi tylko jedno - czemu jak stosuje ten skrypt to dane wyciągniete są zduplikowane? tzn no wpierw pojawiają się raz później odstep i znow? taka jest wlasnosc preg_match_all?

Nie są zduplikowane, var_export" title="Zobacz w manualu PHP" target="_manual pokazuje wszystkie elementy tablicy, dlatego masz takie wrażenie. Zrób sobie prosty przykład, z użyciem preg_match_all" title="Zobacz w manualu PHP" target="_manual, albo zobacz te w manualu.

Jak byś zrobił:

[PHP] pobierz, plaintext 
<?php
// ...
echo $wynik[0][0];
?>
[PHP] pobierz, plaintext

To miałbyś tylko raz to wyświetlone, bo odwołujemy się do danego elementu w tablicy. Poczytaj

Pozdrawiam.

skabszo

9.07.2007, 14:18:31

działa

a to teraz próbowałem cały ten mój przykład złożyć już i oto rezultat:

[PHP] pobierz, plaintext 
<?php
$url = 'http://www.ahlbornorgans.com/eng/products/organum/organum3_regted_eng.htm';
$tekst = file_get_contents($url);
preg_match_all('#<div class="featReg">(.*)<!--end content -->#siU', $url, $out);
foreach($out[1] as $Value){
  echo $Value;
  echo "n"; 
}
?>
[PHP] pobierz, plaintext

no i powinno wyświetlić wszystko to co jest między tagami a nie wyświetla. Myślałem że to może kolor fontu ale to nie to <mhmm>skoro na prostym przykładzie działąło to myslalem ze na tym tez zadziala a tu zonk

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.