Forum PHP.pl > [PHP] Pobieranie title z linka

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: [PHP] Pobieranie title z linka

Majkelo23

28.05.2012, 16:17:40

Potrzebuję funkcji, która wyciągnie mi title danej strony, jeśli z kolei się nie uda to zwróci po prostu false.
Próbowałem najprostszym sposobem - file_get_contents() - za cholerę nie chce działać. Są wyjątki, np. nk.pl przeczyta, ale onet.pl / interia.pl / wp.pl nie potrafi odczytać, zwraca mi false. Czym to jest spowodowane ?

Kod wygląda tak:

[PHP] pobierz, plaintext 
function get_url_title($url)
{
	$path = file_get_contents($url);
	if ( preg_match('/<title>(.*?)<\/title>/', $path, $array) )
	{
		return $array[1];
	}
	else
	{
		return false;
	}
}
[PHP] pobierz, plaintext

ethann

28.05.2012, 17:10:40

Mam parę uwag odnośnie regexpa.
w preg_match() jako ograniczniki wzoru zastosuj np. @ (znak małpy), unikniesz backslashowania często występujących znaków. Znak zapytania nie jest potrzebny, sama gwiazdka oznacza, że chcesz w tym miejscu dowolną ilość elementów (łącznie z jego brakiem).

[PHP] pobierz, plaintext 
preg_match('@<title>(.*)</title>@', $path, $array)
[PHP] pobierz, plaintext

ad kodu u mnie wyrzuca warning w przypadku nk.

Cytat

Warning: file_get_contents(http://nk.pl/) [function.file-get-contents]: failed to open stream: HTTP request failed! HTTP/1.1 403 Forbidden in D:\Programms\wamp\skrypty\getUrlTitle.php on line 5.

Najprawdopodobniej jest parę rzeczy sprawdzanych (chodzi o nagłówki HTTP, np. przeglądarka). Jeśli chcesz z tego serwisu wydobyć adres skorzystaj np. z curl'a i wyślij fałszywe nagłówki.

#edit
U mnie w przypadku WP/Interii/Onet, śmiga bez problemu.

ew. sprawdź czy nie masz ustawionego w php.ini:
allow_url_fopen = Off
ale to raczej odpada bo by Ci nic nie zewnętrznego nie czytało.

Majkelo23

28.05.2012, 17:25:00

[PHP] pobierz, plaintext 
<?php
 
function get_url_title($url)
{
	$path = @file_get_contents($url);
	if ( preg_match('@<title>(.*)</title>@', $path, $array) )
	{
		return $array[1];
	}
	else
	{
		return $url;
	}
}
 
echo get_url_title('http://onet.pl');
 
?>
[PHP] pobierz, plaintext

Efekt: "http://onet.pl" ;/

ethann

28.05.2012, 17:30:28

pokaż co zwraca

[PHP] pobierz, plaintext 
var_dump(get_url_title('http://onet.pl'));
[PHP] pobierz, plaintext

Majkelo23

28.05.2012, 17:32:31

Kod

string(14) "http://onet.pl"

Dodam, że przy http://nk.pl otrzymuję:

Cytat

nk.pl - Serwis spoĹecznoĹciowy nk.pl - platforma komunikacji dla wszystkich internautĂłw

Czyli ok, krzaki sam poprawię.

ethann

28.05.2012, 17:34:33

hm no fakt, zwróć zamiast

[PHP] pobierz, plaintext 
return $array[1];
[PHP] pobierz, plaintext

to:

[PHP] pobierz, plaintext 
return $array;
[PHP] pobierz, plaintext

i wtedy var_dump.

Majkelo23

28.05.2012, 17:34:59

Cholera, znalazłem problem. Te wszystkie strony korzystają z 'http://www.'. Jak to zrobić tak uniwersalnie, że w przypadku wymuszonego 'www' skrypt jakoś to przegryzie? Da się to jakoś ugryźć?

EDIT:

I...na odwrót. http://www.nk.pl/ tez nie śmiga. Dopiero po usunięciu 'www.' ;/

greycoffey

28.05.2012, 17:43:37

Musisz podążać za przekierowaniami, lub napisać funkcję sprawdzającą najpierw http://strona.pl potem http://www.strona.pl.

Majkelo23

28.05.2012, 17:46:32

Własnie po napisaniu pytania, sam wpadłem na to, że muszę w przypadku niepowodzenia sprawdzić link dla "z www." i "bez www.".

Funkcja jest taka:

[PHP] pobierz, plaintext 
function get_url_title($url)
{
	$path = @file_get_contents($url);
	if ( preg_match('@<title>(.*)</title>@', $path, $array) )
	{
		return $array[1];
	}
	else
	{
		if ( strstr($url, 'www.') == FALSE )
		{
			$url = str_replace('http://', 'http://www.', $url);
			$path = @file_get_contents($url);
			if ( preg_match('@<title>(.*)</title>@', $path, $array) )
			{
				return $array[1];
			}
		}
		else if ( strstr($url, 'www.') !== FALSE )
		{
			$url = str_replace('www.', '', $url);
			$path = @file_get_contents($url);
			if ( preg_match('@<title>(.*)</title>@', $path, $array) )
			{
				return $array[1];
			}
		}
		else
		{	
			return $url;
		}
	}
}
[PHP] pobierz, plaintext

Ale...nadal nic. Może Wy widzicie jakiegoś byka?

EDIT:

dla http://onet.pl/ już działa - dopisuje "www.". Jednak w przypadku http://www.nk.pl/ - nie chce wywalać tego "www." ;/

ethann

28.05.2012, 17:46:41

Zależy. możesz to zrobić w prosty sposób samemu wpisując 2 adresy (z WWW oraz bez WWW) np.

[PHP] pobierz, plaintext 
function get_url_title_x($linka, $linkb) {
 if(($ret = get_url_title($linka)) !== false) {
  return $ret;
 }
 else {
  return get_url_title($linkb);
 }
}
 
get_url_title_x("http://nk.pl/", "http://www.nk.pl/");
[PHP] pobierz, plaintext

Ewentualnie sprawdzić regexp'em czy występuje w linku fragment "www.", jeśli nie to po prostu przygotować 2 zmienne, jedna z wartością normalnego linka, a drugą z takim samym linkiem tylko dopisać do niego "www." zaraz po ukośnikach (http://) i wtedy wykonać np. część zawartą w get_url_title_x (kod który podałem wyżej).

Majkelo23

28.05.2012, 17:49:58

Dla http://onet.pl/ już działa - dopisuje "www.". Jednak w przypadku http://www.nk.pl/ - nie chce wywalać tego "www." ;/

ethann

28.05.2012, 17:52:34

przede wszystkim włącz ostrzeżenia w php.ini, albo dopisz na górze pliku dopisz error_reporting(E_ALL);
I nie wyciszaj tego co krzyczą funkcję póki kod nie będzie działał poprawnie.

Majkelo23

28.05.2012, 17:55:33

Niestety, nic to nie dało.

IProSoft

28.05.2012, 17:56:03

Gotowa i działająca:

[PHP] pobierz, plaintext 
function get_url_title_x($url) {
	$curl_options = array(
			CURLOPT_FOLLOWLOCATION => true,
			CURLOPT_MAXREDIRS => 3,
			CURLOPT_RETURNTRANSFER => true,
			CURLOPT_UNRESTRICTED_AUTH => true,
			CURLOPT_CONNECTTIMEOUT => 30,
			CURLOPT_DNS_CACHE_TIMEOUT => 30,
			CURLOPT_TIMEOUT => 30,
			CURLOPT_USERAGENT => 'Mozilla/5.0 (Windows NT 5.1; WOW64; rv:5.0) Gecko/20100101 Firefox/5.0'
		);
	$curl = curl_init();
	curl_setopt_array($curl, $curl_options);
	curl_setopt($curl, CURLOPT_URL, $url);
	$data = curl_exec( $curl );
	curl_close( $curl );
	if ( preg_match('@<title>(.*)</title>@', $data, $array) )
	{
		return $array[1];
	}
	return false;
}
[PHP] pobierz, plaintext

Majkelo23

28.05.2012, 18:00:46

Problem w tym, że mam coś wyłączonego na serwerze, co powoduje, że Twoja funkcja nie działa:

Cytat

Warning: curl_setopt_array() [function.curl-setopt-array]: CURLOPT_FOLLOWLOCATION cannot be activated when safe_mode is enabled or an open_basedir is set in /home/

;/ nie bawie się na darmówkach tylko na normalnym hostingu.
Moja funkcja jest nie do poprawy?

IProSoft

28.05.2012, 18:16:07

Sprawdziłem funkcję z postu: http://forum.php.pl/index.php?s=&showt...st&p=965893 i działa pieknie, dla jakiej strony nie pobiera Ci title?

Usuń wszystkie @ z kodu i daj error_reporting(E_ALL); przed wywołaniem funkcji.

Majkelo23

28.05.2012, 18:36:19

Facet na innym forum też twierdził, że mu działa ta funkcja. Mi z kolei ona nie działa. Inny napisał, że "to kwestia requiestów..." cokolwiek to oznacza.

IProSoft

28.05.2012, 18:38:18

Niestety nikt bez jakichkolwiek komunikatów/błędów nie będzie mógł raczej znaleźc rozwiązania.

Majkelo23

28.05.2012, 20:14:10

Ta, tylko że ja nie mam żadnych błędów/komunikatów, tyle tylko że nie pobiera mi tego title. Kod, który kazałeś dodać dodałem i napisałem pare postów wcześniej - nic to nie zmieniło.

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.