Forum PHP.pl > Zamiana poczatku url na inny....

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Zamiana poczatku url na inny....

Randallmaster

11.03.2010, 14:22:30

Witam serdecznie.. Napisałem taki skrypt:

[PHP] pobierz, plaintext 
<?php
 
    $curl = curl_init();
    curl_setopt ($curl, CURLOPT_URL, "http://praca.gazetapraca.pl/0,4050,,,1,20,-postDate,,,,,,Kalisz,,,0,,,,,,,,133.html");
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
 
    $result = curl_exec ($curl);
    curl_close ($curl);
 
 
    //links
    if(preg_match_all("#<div class=\"c0\">(.*?)</div>#", $result, $links))
    {
			foreach($links[0] as $link)
			{
					if(preg_match_all("#<strong>(.*?)</strong>#", $result, $links))
					{
					foreach($links[0] as $link)
					{
				echo $link."<br />";}  
				}
			}
 
    }
 
?> 
[PHP] pobierz, plaintext

Wyniki działania:
http://www.pracujkalisz.pl/dane.php

jedynie co źle wychodzi to link:

http://www.pracujkalisz.pl/200,4001,,76866...r+Naczelny.html

a powinno być tak:

http://praca.gazetapraca.pl/200,4001,,7686...r+Naczelny.html

jak zamienić początki linku??
to:
http://www.pracujkalisz.pl/
na:
http://praca.gazetapraca.pl/

prosze o pomoc

Ges

11.03.2010, 14:33:33

Ze względu na to, ze linki na stronie z której je pobierasz są linkami względnym, pronowałbym takie modyfikacje:

1. dogrzebanie się do hrefa wewnatrz tych linków (względne ścieżki linków)
2. dopisanie do niego prefixu w postaci bazowego urla
3. printowanie ich bez <strong> itd itp. tylko samemu dopisanie <a href="">

Poza tym myślę, że właśnie to chciałeś osiągnąć używając w wewnętrznym preg_match_all zapisu (.*?)
Tylko potem zrobiłeś błąd próbując printować $links[0]. Gdybyś uważniej przestudiował dokumentacje wpadłbyś na fakt, iż wyniki dopasowań zdefiniowane przez ( ) znadują się w indeksach od 1 w górę do ilości () w preg_match_all.

Kod który poprawia ten błąd i wyciągą ścieżki względne.

[PHP] pobierz, plaintext 
<?php
 
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, "http://praca.gazetapraca.pl/0,4050,,,1,20,-postDate,,,,,,Kalisz,,,0,,,,,,,,133.html");
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
 
$result = curl_exec($curl);
curl_close($curl);
 
//links
$baseUrl = "http://praca.gazetapraca.pl/";
 
if (preg_match_all("#<div class=\"c0\">(.*?)</div>#", $result, $links))
{
    foreach ($links[0] as $link)
    {
        if (preg_match_all("#<strong>.*<a href=\"(.*?)\".*</a></strong>#", $result, $links))
        {
            foreach ($links[1] as $link)
            {
                $href = $baseUrl . $link;
                print "<a href=\"$href\">$href</a><br />";
            }
        }
    }
 
}
 
?> 
[PHP] pobierz, plaintext

Randallmaster

11.03.2010, 14:51:19

Zmieniło się ale wygląda to niezbyt ciekawie:

http://www.pracujkalisz.pl/gazetapraca.php

ale działa dobrze... A co zrobić żeby miało poprzedni wygląd?

Ges

11.03.2010, 14:55:15

Pomyśl

Wszystkie błędy zostały wytknięte i widzisz w jaki sposób zostało to naprawione...

Czemu wszyscy tu liczą na gotowce

Randallmaster

11.03.2010, 14:59:43

teraz wszystko jest ze sobą powiązane

i jak mam wyodrębnić tamto jeżeli za miast tamtego wyświetla mi się<a href.....

Ges

11.03.2010, 15:11:18

Naprowadzę Cię :]

Wyciągamy teraz z tych linków same hrefy, których dopasowania trafiają do $links[1], ponieważ jest to pierwszy "()" w naszym preg_match_all.
Potrzebowalibyśmy teraz wyciągnąć to co jest za linkiem poza hrefem.
Więc modyfikujemy preg_match_all.

[PHP] pobierz, plaintext 
if (preg_match_all("#<strong>.*<a href=\"(.*)\" >(.*)</a></strong>#", $result, $links))
[PHP] pobierz, plaintext

Co to daje ? Teraz wszystko co jest:

href=\"TUTAJ\" => trafia do $links[1]

A wszystko co jest pomiędzy:
<a>TUTAJ</a> => trafia do $links[2]

Więc to drugie umożliwa nam dostanie się do opisu linka :]

Teraz już pozostaje tylko sformatowanie danych, które mamy dostępne.
Na przykład w ten sposób:

[PHP] pobierz, plaintext 
foreach ($links[1] as $index => $link)
            {
                $href = $baseUrl . $link;
                print "<a href=\"$href\">".$links[2][$index]."</a><br />";
         }
[PHP] pobierz, plaintext

Cały kod wyglądałby tak:

[PHP] pobierz, plaintext 
<?php
 
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, "http://praca.gazetapraca.pl/0,4050,,,1,20,-postDate,,,,,,Kalisz,,,0,,,,,,,,133.html");
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
 
$result = curl_exec($curl);
curl_close($curl);
 
//links
$baseUrl = "http://praca.gazetapraca.pl/";
 
if (preg_match_all("#<div class=\"c0\">(.*?)</div>#", $result, $links))
{
    foreach ($links[0] as $link)
    {
        if (preg_match_all("#<strong>.*<a href=\"(.*)\" >(.*)</a></strong>#", $result, $links))
        {
            foreach ($links[1] as $index => $link)
            {
                $href = $baseUrl . $link;
                print "<a href=\"$href\">".$links[2][$index]."</a><br />";
            }
        }
    }
 
}
 
?> 
 
[PHP] pobierz, plaintext

Mam nadzieję, że wyniesiesz z tego posta coś więcej niż gotowy kod, który notabene przygotowali Ci ludzie z tego forum, bo widzę, że początkowy kod został stworzony też harytatywnie na Twoją prośbę w osobnym poście.

Randallmaster

11.03.2010, 15:19:14

To jest kod stworzony przez jednego z użytkowników:

[PHP] pobierz, plaintext 
<?php
$string = file_get_contents('http://praca.gazetapraca.pl/0,4050,,,1,10,-postDate,,,,,,Kalisz,,,0,,,,,,,,133.html');
$tekst = "<body onload><table><tr><td>ala ma kota</td></tr></table></body>";
 
$result = preg_match_all('/<div class="c0">(.*?)<\/div>/s', $string, $match); 
 
$links = array();
foreach($match AS $value)
{
	foreach($value AS $val)
	{
	$result2 = preg_match('/<strong>(.*?)<\/strong>/s', $val, $match2);
	$links[] = $match2[1]; 
	}
 
}
$links = array_filter($links);
print_r($links);
 
?>
[PHP] pobierz, plaintext

a to jest mój

[PHP] pobierz, plaintext 
<?php
 
    $curl = curl_init();
    curl_setopt ($curl, CURLOPT_URL, "http://praca.gazetapraca.pl/0,4050,,,1,20,-postDate,,,,,,Kalisz,,,0,,,,,,,,133.html");
    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
 
    $result = curl_exec ($curl);
    curl_close ($curl);
 
 
    //links
    if(preg_match_all("#<div class=\"c0\">(.*?)</div>#", $result, $links))
    {
			foreach($links[0] as $link)
			{
					if(preg_match_all("#<strong>(.*?)</strong>#", $result, $links))
					{
					foreach($links[0] as $link)
					{
				echo $link."<br />";}  
				}
			}
 
    }
 
?> 
[PHP] pobierz, plaintext

Fakt faktem robiłem go sam przez przerabianie innych skryptów ale zrobiłem go sam... dziękuję za pomoc

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.