Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: Search Engine
Forum PHP.pl > Forum > PHP > Pro > Archiwum Pro
rydzyk
Witam, to mój pierwszy post i nie wiem czy kwalifikuje się on do php PRO ale chyba tak. Będę musiał zrobić engine który przeszukuje serwisy www, np www.wp.pl w poszukiwaniu określonych słów kluczowych, następnie zapisać np. treść newsa. do bazy. Trochę na ten temat myślałem ale nie wiem za bardzo jak to zrobić :oops: jedyne co wymyśliłem to - "zapisać" stronę z wp, przeanalizować pod kontem <a href ..., i przechodzić na kolejne podstrony itd. teoria wygląda jasno aczkolwiek z realizacją znając życie będzie dużo trudniej. Może znacie jakieś linki do kodu z gotowym rozwiązaniem, chętnie obejże jak to inni robią. Może inaczej to się robi questionmark.gif
kurtz
Hej
Cytat
Witam, to mój pierwszy post i nie wiem czy kwalifikuje się on do php PRO ale chyba tak. Będę musiał zrobić engine który przeszukuje serwisy www, np www.wp.pl w poszukiwaniu określonych słów kluczowych, następnie zapisać np. treść newsa. do bazy. Trochę na ten temat myślałem ale nie wiem za bardzo jak to zrobić :oops: jedyne co wymyśliłem to - "zapisać" stronę z wp, przeanalizować pod kontem <a href ..., i przechodzić na kolejne podstrony itd. teoria wygląda jasno aczkolwiek z realizacją znając życie będzie dużo trudniej. Może znacie jakieś linki do kodu z gotowym rozwiązaniem, chętnie obejże jak to inni robią. Może inaczej to się robi ??
Pobierasz strone (sockety), wysuzkujesz odpowiednie fragemnty (wyrazenia regularne), dodajesz gdzies do plikow statycznych czy do bazy + informacje o prawach autorskich.

Jesli idzie o mnie temat nie specjalnie nadaje sie na pro.. tylko co sie nadaje? ;)

Pozdrawiam
e-Gandalf
Zalezy! Moim zdaniem to sie nadaje nawet nie na pro, tylko na jakies forum na ktorym mozna by zlecic za pieniadze przygotowanie profesjonalnego skryptu smile.gif

Bo jesli ja dobrze zrozumialem, to kolega chce korzystac z wyszukiwarki WP, znajdywac wyniki i analizowac je a nastepnie okreslone wyniki kopiowac do siebie.. A to juz sporo roboty, zeby po 2 godzinach pracy goscie z WP nie ucieli naszego Ipka smile.gif
Omega
Ja nie bardzo rozumiem o jakie newsy ci chodzi. Czy ty chcesz ściągać newsy ze znalezionych stron?questionmark.gif 8O I napisz czy te "słowa kluczowe" to te które wpisujesz do wyszukiwarki...? biggrin.gif
rydzyk
wiec nic takiego nie chce robić laugh.gif (to do e-Gandalfa) chodzi o wyszukiwanie informacji prasowych odnośnie określonych produktów i firm jakie ukazują sie w dużych serwisach internetowych(podaje adres serwisu, kila słów np. IBM, serwer itp a do bazy zapisuje mi sie news na temat nowego serwera firmy IBM biggrin.gif .
Troche socketami sie pobawiłem i widze że to coraz mniej na php pro sie nadaje, ale cóż pewnie w trakcie bedą jeszcze problemy. Dzięki za pomoc. Może jednak ktoś ma namiar na jakiś gotowiec, nie lubie wyważać otwartch drzwi a ktoś juz pewnie coś takiego napisał.
e-Gandalf
eee... szkoda ;p
kwiateek
Cytat
Trochę na ten temat myślałem ale nie wiem za bardzo jak to zrobić :oops: jedyne co wymyśliłem to - "zapisać" stronę z wp, przeanalizować pod kontem <a href ..., i przechodzić na kolejne podstrony itd. teoria wygląda jasno aczkolwiek z realizacją znając życie będzie dużo trudniej.

Wydaje mi się, że optymalniejszym rozwiązaniem byłoby skorzystanie np. z jakieś wyszukiwarki np. google.pl w poszukiwaniu określonych słów kluczowych na stronach Wirtualnej Polski. Potem pobrać linki znalezionych stron z google i przeszukiwać już skryptem.
Przykładowy kod jaki możesz wykorzystać:
[php:1:2a9717c467]<?php
###
### google search finder
### Joel De Gan
### http://listbid.com/affil/
###
function GetCurlPage ($pageSpec) {
$agent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)";
$ref = "http://www.google.com";
$ch = curl_init($pageSpec);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, $agent);
curl_setopt($ch, CURLOPT_REFERER, $ref);
$tmp = curl_exec ($ch);
curl_close ($ch);
return $tmp;
}

// callback function
function filt($var) {
return(substr($var, 0, 4) == "http");
}

function googleresults($search){
global $main;
$GrabURL = "http://www.google.com/search?hl=en&ie=UTF-8&oe=UTF-8&q="
.$search."&btnG=Google+Search";
$parsed = parse_url($GrabURL);
$host = $parsed[host];
$parts = explode(".", $host);
$count = count($parts);
$main = $parts[$count - 2] . "." . $parts[$count - 1];
$OpenFile = GetCurlPage($GrabURL);
preg_match_all("|href="?([^"' >]+)|i", $OpenFile, $arrayoflinks);
$new = array_filter($arrayoflinks[1], "filt");
return $new;
}// end function

$new = googleresults("php");
//Listing the array

While(List(,$link) = Each($new)){
if(substr_count($link, $main)==0 && substr_count($link, "search?q")==0){
Echo "$link<Br>";
}//fi
}// wend
?>[/php:1:2a9717c467]
Zaczerpnięty z php.net (komentarze do preg_match_all).

Pozdrawiam.
seaquest
a nie latwiej skorzystac z site: wp.pl a pozniej socketem :?:

EDIT
Stymże sockety strasznie dlugo sie laduja, pamietajcie o tym, a skrypt pokazany na forum niestety nie zapewnia tez swietnej, szybkiej pracy.
bartek_matosiuk
wiesz co a ja mam inna propozycje ... moglbys urzyc isniejacych enginow (IMHO mnoGoSearch jest najlepszy) i po prostu zindeksowac interesujaca cie domene. Wtedy mnogo odwali za ciebie cala robote bedziesz mial wszystko w bazie danych, slowa kluczowe powazone itp. A nadmienie jeszcze tylko ze mnoGoSearch ma calkiem fajny interface dla php. Ostatnio implementowalem ten system i zarowno instalacja jak i koniguracja indexera sa dosc proste wiec nie powinno ci to nastreczyc problemu.

To jest oficjalna strona projektu: http://www.mnogosearch.org/ . Calkiem niezla dokumentacja i webboards na ktorych otrzymasz odpowiedz chyba na kazde pytanie.
tumeks
DZENX wam za to co napisaliscie
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.