Forum PHP.pl > [PHP]Preg

Pomoc - Szukaj - Użytkownicy - Kalendarz

vegeta

2.02.2011, 19:13:26

[PHP] pobierz, plaintext 
preg_match_all("/<a(?:[^>]*)href=\"(http:\/\/[^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $stripped_file, $matches);
[PHP] pobierz, plaintext

Co mam zrobić, aby wypluwało mi tylko linki do stron głównych? Chodzi mi o to, aby nie wypluwało wyników, które mają kilka / po głównym adresie. Chcę, żeby wyświetlało mi tylko wyniki z jednym / i bez niego np. http://onet.pl i http://onet.pl/, ale nie dawało już http://onet.pl/dzieci_neo albo http://onet.pl/dzieci_neo/blaaa/

amii

2.02.2011, 19:23:38

Można to zrobić w ten sposób na ciągach znaków:

[PHP] pobierz, plaintext 
$ciag = array();
foreach ($matches as $value) {
$pozycja = strpos($value[1], '/', 7);  //zwraca pierwsze wyrażenie w nawiasach, 7 bo pomijamy http://
$ciag[] = substr($value[1], 0, $pozycja);
}
[PHP] pobierz, plaintext

vegeta

2.02.2011, 19:29:21

Wolałbym jednak zrobić to na samych preg_matchach jak się da.

Oto mój cały kod:

[PHP] pobierz, plaintext 
<?php
  $original_file = file_get_contents("http://it-maniak.pl/");
  $stripped_file = strip_tags($original_file, "<a>");
  preg_match_all("/<a(?:[^>]*)href=\"(http:\/\/[^\"]*)\"(?:[^>]*)>(?:[^<]*)<\/a>/is", $stripped_file, $matches);
 
  header("Content-type: text/plain");
  print_r($matches);
?>
[PHP] pobierz, plaintext

Piogola

2.02.2011, 19:39:35

[PHP] pobierz, plaintext 
<?php  
  $original_file = file_get_contents("http://it-maniak.pl/");
  $stripped_file = strip_tags($original_file, "<a>");
  preg_match_all('#href="(http://[^/]+/)"#is', $stripped_file, $matches);
 
  header("Content-type: text/plain");
  print_r($matches);
 ?>
[PHP] pobierz, plaintext

Kod

Array
(
    [0] => Array
        (

        )
[1] => Array
        (
            [0] => http://forum.it-maniak.pl/
            [1] => http://debnix.compu.boo.pl/
            [2] => http://forum.it-maniak.pl/
            [3] => http://grajek.it-maniak.pl/
            [4] => http://tcn.cba.pl/
            [5] => http://potterwarta.info/
            [6] => http://evilus.wordpress.com/
            [7] => http://kurshtml.boo.pl/
            [8] => http://mikonews.tk/
            [9] => http://wordpress.org/
            [10] => http://wordpress.org/
        )

)

vegeta

2.02.2011, 19:49:16

Ok, dzięki, ale teraz nie dodaje linków, które nie mają / na końcu np. http://zww.me, który jest w stopce.

I jeszcze jedno. Chcę, aby moja tablica nie zawierała dwóch identycznych wyników tak jak w przypadku skanowania onet.pl link http://poczta.onet.pl/
(5 i 6)

//Poradziłem sobie

Piogola

2.02.2011, 19:54:17

Kod

#href="(http://[^/"]+[/]?)"#is

vegeta

2.02.2011, 20:51:59

Kolejny problem. Chcę wyświetlić tablice:

[PHP] pobierz, plaintext 
<?php
  $original_file = file_get_contents("http://it-maniak.pl/");
  $stripped_file = strip_tags($original_file, "<a>");
  preg_match_all('#href="(http://[^/"]+[/]?)"#is', $stripped_file, $matches);
 
  $unikat = array_unique($matches[1]);
 
  foreach ($unikat as $link)
  {
      for ($i = 0; $i < count($link); $i++)
      {
          echo $link[$i] . '<br />';
      }
  }
?>
[PHP] pobierz, plaintext

Wyświetlają mi się tylko h, a jak zmienie w 6 linijce na $matches to pojawiają mi się tylko te 'linki' z czystego preg_match

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.