Forum PHP.pl > parsowanie php

Pomoc - Szukaj - Użytkownicy - Kalendarz

qoryto

1.07.2014, 10:57:33

Witam, Mam otóż taki problem.
Kawałek kodu:

[PHP] pobierz, plaintext 
$html= str_get_html($curlresult);
	$grab_urls = $html->find('a[class=s]');
	$grab_infos = $html->find('img[class=te]');
	$grab_vidtime = $html->find('span[class=d]');
[PHP] pobierz, plaintext

Problem dotyczy $grab_infos. Pojaśnię:
Skrypt pobiera informacje ze strony w tym także obrazek. Wszystko działa fajnie, jednak jest problem przy pobraniu obrazka

fragment kodu z któej strony pobieram:

[PHP] pobierz, plaintext 
<div class="video">
<a href="/775361" title="XXX " >
<img title="XXX " id="0775361" class="te lazy" data-src="http://img.ec.cdn.redtubefiles.com/_thumbs/0000775/0775361/0775361_015m.jpg" src="http://img01.redtubefiles.com/_thumbs/design/new-design/video-thumb-placeholder.gif" alt="Nubile Films - Gooey facial for petite teen " />
				</a>
[PHP] pobierz, plaintext

Pobiera mi obrazek:

[PHP] pobierz, plaintext 
http://img01.redtubefiles.com/_thumbs/design/new-design/video-thumb-placeholder.gif zamiast: <a href="http://img.ec.cdn.redtubefiles.com/_thumbs/0000775/0775361/0775361_015m.jpg" target="_blank">http://img.ec.cdn.redtubefiles.com/_thumbs...775361_015m.jpg</a>
[PHP] pobierz, plaintext

Tutaj poprawiałem:

[PHP] pobierz, plaintext 
$grab_infos = $html->find('img[class=te]'); 
na:
$grab_infos = $html->find('img[class=te lazy]');
[PHP] pobierz, plaintext

i nadal nie działa. W jaki sposób pobrać str_get_html class="te lazy" data-src=" i dalszą część aby poprawną miniaturke mi skopiowało??

Pozdrawiam

aras785

1.07.2014, 11:46:47

http://php.net/manual/en/domelement.getattribute.php

[PHP] pobierz, plaintext 
$html->getElementById("0775361-to jest id obrazka")->getAttribute('data-src');
[PHP] pobierz, plaintext

lub

[PHP] pobierz, plaintext 
$grab_infos->getAttribute('data-src');
[PHP] pobierz, plaintext

Jeśli zależy Ci na szybkości to w DOM się nie baw. preg_match będzie OK.

Pozdrawiam

ps. nie sprawdzałem w/w rozwiązań.

SmokAnalog

1.07.2014, 16:16:47

Cytat(aras785 @ 1.07.2014, 12:46:47 )

Jeśli zależy Ci na szybkości to w DOM się nie baw. preg_match będzie OK.

Na pewno zależy mu na tym, żeby ten skrypt się uruchomił o ćwierć sekundy szybciej. Do parsowania DOM służą parsery DOM, a nie wyrażenia regularne - są bardziej wyrozumiałe dla ewentualnych zmian w HTML-u.

Zastanawia mnie czasem po co wywiązują się dyskusje pod tytułem co jest bardziej wydajne. To ma znaczenie tylko jeśli mamy stronę o wielkim obciążeniu lub jeśli różnica faktycznie jest odczuwalna. Jeśli żaden z tych punktów nie jest spełniony, a my dalej drążymy temat, to to jest już czysta pasja optymalizacji (na którą miejsce jest tylko przy materiałach do nauki i w kręgach dyskusyjnych) albo zwykłe natręctwo.

qoryto

1.07.2014, 18:48:17

Nie zależy mi na 'super wydajności' ponieważ skrypt dodaje filmy do bazy, jednak jest problem z pobieraniem obrazków.
Tutaj kod wygląda następująco:

[PHP] pobierz, plaintext 
$html= str_get_html($curlresult);
	$grab_urls = $html->find('a[class=s]'); <- odpowiedzialne za url - OK działa
	$grab_infos = $html->find('img[class=te]'); - Odpowiedzialne za pobieranie miniatur - nie działa
	//$grab_infos->getAttribute('data-src'); - rozwiązanie z forum - nie działa występuje błąd: Fatal error: Call to a member function getAttribute() on a non-object
	$grab_vidtime = $html->find('span[class=d]'); - odpowiedzialne za czas filmu OK // dołu już nie bede przedstawiał.
	$find_next = preg_match("/a  id	= \"navNext\" title	= \"(.*)\" class	= \"navigate\" href	= \"(.*)\" onclick/Ui", $html, $next_page);
	$grab_next = $next_page[2];
[PHP] pobierz, plaintext

Filmy pobierane są do bazy ze strony erotycznej redtube.. zmienili coś w classi'e i po prostu nie pobiera mi obrazka. Pobiera film, tytuł, czas trwania filmu itd jednak miniatury nie. W jaki sposób zastosować powyższe rozwiązanie, tak aby pobierał każdy obrazek który jest dodawany do bazy?

Wygląda w kodzie RT tak:

[PHP] pobierz, plaintext 
	<img title="Hot babysitter Melanie Rios" id="0622953" class="te lazy" data-src="http://img.l3.cdn.redtubefiles.com/_thumbs/0000622/0622953/0622953_009m.jpg" src="http://img01.redtubefiles.com/_thumbs/design/new-design/video-thumb-placeholder.gif" alt="Hot babysitter Melanie Rios" />
[PHP] pobierz, plaintext

Pobiera mi video-thumb-placeholder.gif zamiast docelowego obrazka. Podałem przykład pierwszy lepszy filmu - poniwaz każdy film ma swój ID (nie w tym rzecz) chodzi o to aby zdjęcie pobrało z data-src a nie samo "src="...

Pozdrawiam

aras785

1.07.2014, 19:24:27

[PHP] pobierz, plaintext 
<?php
include('simple_html_dom.php');
 
$html = '<img title="Hot babysitter Melanie Rios" id="0622953" class="te lazy" data-src="http://img.l3.cdn.redtubefiles.com/_thumbs/0000622/0622953/0622953_009m.jpg" src="http://img01.redtubefiles.com/_thumbs/design/new-design/video-thumb-placeholder.gif" alt="Hot babysitter Melanie Rios" />';
 
$html = str_get_html($html);
 
$grab_infos = $html->find('img[class=te lazy]');
 
//jeśli jest więcej miniatur dla jednego bloku html
foreach($grab_infos as $element) {
	echo $element->{'data-src'};
}
echo '<br /><br />';
//wynik dla pojedycznego
echo $grab_infos[0]->attr['data-src'];
 
[PHP] pobierz, plaintext

qoryto

1.07.2014, 19:33:54

Cytat(aras785 @ 1.07.2014, 20:24:27 )

[PHP] pobierz, plaintext 
<?php
include('simple_html_dom.php');
 
$html = '<img title="Hot babysitter Melanie Rios" id="0622953" class="te lazy" data-src="http://img.l3.cdn.redtubefiles.com/_thumbs/0000622/0622953/0622953_009m.jpg" src="http://img01.redtubefiles.com/_thumbs/design/new-design/video-thumb-placeholder.gif" alt="Hot babysitter Melanie Rios" />';
 
 
[PHP] pobierz, plaintext

Nie bardzo rozumie, jak to się ma do wszystkich miniatur filmików? ja podałem tylko przykład a reszte jak zrobic?

tutaj pełna klasa:

[PHP] pobierz, plaintext 
// Get Videos from RedTube.com ------------------------------
case 'redtube.com':
	$page_number = 1;
	do {
	if ($page_number > $maxpages+1) {break;}
	if (($page_number > "1") AND ($showoutput == "yes")) {
	if ($grab_next_page) {$url = $grab_next_page;}
	$show_total_source++;
	if ($showoutput == "yes") {
	echo "<p align=\"left\"><i><b>[".$show_total_source."] Connecting ".$showfeedhost." page ".$page_number."...</b></i> [<a href=\"".$url."\" target=\"_blank\" title=\"Go to ".$url."\">Check Link</a>]<br></p>";
	flush_buffers();
	}
	}
	$curlresult = connectSource($url, $userAgent, $usefollow, $proxies, $proxysources, $feedhost, $family_filter);
	if (!$curlresult) {$feednotfound++; $notfoundstats[] = $url; break;}
	$html= str_get_html($curlresult);
	$grab_urls = $html->find('a[class=s]');
	$grab_infos = $html->find('img[class=te]');
	$grab_vidtime = $html->find('span[class=d]');
	$find_next = preg_match("/a  id	= \"navNext\" title	= \"(.*)\" class	= \"navigate\" href	= \"(.*)\" onclick/Ui", $html, $next_page);
	$grab_next = $next_page[2];
	if ($grab_next) {$grab_next_page = $grab_next;} else {unset($grab_next_page);}
	$futuretime = 5; $pornmax = 1; $conta = 0; $grabbed_cp = 0;
foreach ($grab_infos as $element) {
	if($pornmax > $maxvideos) {break;} else {
	$title = fixEncoding($element->title);
	$checklink = sanitize_title($title);
	$cl2 = $wpdb->get_var("SELECT post_name FROM $wpdb->posts WHERE post_name = '$checklink'");
	if ($cl2) {$conta++; continue;}
	$thumbnail = $element->src;
	$vidcod = $element->id;
	if (!$vidcod) {$conta++; continue;}
	$checkcod = $wpdb->get_var("SELECT meta_value FROM $wpdb->postmeta WHERE meta_key= 'mvb_vid_code' AND meta_value = '$vidcod'");
	if ($checkcod) {$conta++; continue;}
	$description = "";
	$keywords = preg_replace('#[0-9,.?$@!]#i','',$title);
	$keywords = fixpornkeywords($keywords);
	$keywords = fixEncoding($keywords);
	if ($checktitle == "yes") {if (search_blocked_tags(strtolower($title), $blocktags)) {$conta++; continue;}}
	if ($checkdesc == "yes"){if (search_blocked_tags(strtolower($description), $blocktags)) {$conta++; continue;}}
	if ($checktags == "yes"){if (search_blocked_tags(strtolower($keywords), $blocktags)) {$conta++; continue;}}
	$postcontent = player_redtube($vidcod,$pwsize,$phsize);
	$redtube++;
	$mvbstats['RedTube'] = $redtube;
	$vidurl_original = $grab_urls[$conta]->href;
	if (!preg_match("/http/i", $vidurl_original)) {
    $vidurl_original = "http://www.redtube.com".$vidurl_original."";
	}
	$vidtime = $grab_vidtime[$conta]->plaintext;
	savepost($category, $keywords, $thumbnail, $description, $postcontent, $poststatus, $title, $commentstatus, $pingstatus, $feedhost, $vidcod, $postauthor, $futuretime, $vidurl_original, $grab_comments, $max_comments, $aprove_comments, $vidtime);
	$pornmax++; $conta++; $ptotaladded++; $grabbed++; $grabbed_cp++; $futuretime = $futuretime + $scheduletime;
	if ($showoutput == "yes") {
	echo "<p align=\"left\"><i><font color=\"green\">Video added:</font> ".$title." <font color=\"green\">(".$poststatus.")</font></i><br></p>";
	flush_buffers();
	}
	$grab_more = $maxvideos-$grabbed;
	if ($grab_more == "0") {break;}
	}
}
	$html->clear(); 
	unset($html);
	if (($grabbed_cp == "0") AND ($showoutput == "yes")) { echo "<p align=\"left\"><i>There is no new videos in this page.</i><br></p>"; flush_buffers();}
	$page_number++;
	if (!$grab_next_page) {break;}
} while (($grab_more > "0") OR ($grabbed == "0"));
break;
[PHP] pobierz, plaintext

aras785

1.07.2014, 19:48:10

Dostałeś to o co prosiłeś... Jasnowidzem nie jestem.

Rozwiązanie problemu (raczej):

qoryto

1.07.2014, 22:07:45

działa, dzięki

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.