Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: [curl] szukanie wgłąb strony
Forum PHP.pl > Forum > PHP
PawelC
witam smile.gif
problem polega na tym napisałem sobie w php, robota sieciowego i szuka on tego co chcę jednak tylko na stronie głównej, jak zrobić w php aby robot wszedł po linkach wgłąb strony. Prosiłbym o jakieś wskazówki, i jeżeli to możliwe jakiś przykład.

offtop Jaki język według was jest najlepszy do napisania robota sieciowego?
Cytat
Pająk powinien być widoczny
Kolejnym dobrym sposobem zapewnienia, że inni będą wiedzieli o naszym pająku, jest
zawarcie w klauzuli
User-Agent
pająka danych kontaktowych [Sposób 11.] Może to
być adres poczty elektronicznej lub adres strony. Trzeba pamiętać potem o sprawdzaniu
tego adresu i zapewnieniu, że znajdą się pod nim oczekiwane informacje

Czy w php jest możliwość zrobienia tego, że jak robot wejdzie np na forum to zamiast gość wyświetli nazwe robota którą mu nadam? Jeżeli tak to w jaki sposób?
morrison
dolacze sie fo tematu.
najlepsza technologia do takich rzeczy to z pewnoscia J2EE.
pisze aplikacje ktora sama laczy sie z roznymi serwisami www ktore pozwalaja wyszukiwac numer telefonu na podstawie danych osobowych - nastepnie odbiera wyniki i wyswietla je. wyszukiwanie z serwisu PLUS i Dialog juz mi dziala, ale mam problem z tym:
http://www.sferia.pl/index.php?action=page...130&pid=169
czy zechce ktos zerknac na ten formularz i powiedziec mi na co powinienem zwrocic uwage? czy powinienem wysylac rowniez pole takie:
<input type="hidden" name="tc" value="" />
jesli nie ma zadnej wartosci? jesli tak to jak? druga rzecz to nazwy pol ktore wygladaja tak:
name="dane[nazwa_firmy]"
czy wysylajac w taki sposob: dane[nazwa_firmy]=costam ma prawo to dzialac? bo w input jest jeszcze ustawione to:
tabindex="3", nie bardzo wiem jak to dokladnie dziala.

generalnie pisze to w java z wyk. biblioteki java.net.HttpUrlConnection, ale mechanizm ten dziala chyba na podobnie jak Curl w php.
czyli w jednym miejscu podaje adres skryptu/serwletu do ktorego wysylam zadanie, a w dodatkowej zmiennej skladam ja z lancucha zawierajacego ciag zmiennych i ich wartosci, tak jak wyglada to w url'u.
i jeszcze to:
<form action="index.php?action=page&cid=130&pid=169&url=aHR0cDovL3d3dy5zZmVyaWEucGwvaW5kZXgucGhwP2FjdGlvbj1wYWdlJmNpZD0xMzAmcGlk
TE2OQ==" method="post">
moze mnie ktos upewnic czym tutaj jest zmienna 'url' i dlaczego ma taka wartosc? czyzby identyfikator sesji? jak moge to obejsc?

bede wdzieczny za pomoc w dostaniu sie do ich skryptu..
PawelC
No więc wie ktoś może jak zrobić aby zamiast:
Cytat
Gość
IP: 78.46.*.*


Wyświetliła się moja nazwa jak np tutaj:
Cytat
GoogleBot
IP: 66.249.*.*



Bo napisałem prostego robota który sprawdza czy są nowe posty na forum, ale wyświetla mi zamiast jego nazwy to gość, sprawdzałem w php ale chyba coś źle robiłem.
Kicok
1. Musisz wysyłać także nagłówek User-Agent z jakimś swoim tekstem, np.: "Pająk/0.7 http://www.pajak.com/bot/info.html"

2. Musisz dodać do skryptu forum funkcję rozpoznawania swojego UserAgenta
PawelC
ok dzięki zobacze smile.gif a wie ktoś może jak wygląda wyrażenie regularne które wyszuka mi linki na stronie, zawarte w <a href="http://www.adres-strony.pl/">, tak aby robot mógł znaleźć linki i po nich iść dalej. Cały czas próbuje i zero efektu
franki01
  1. <?php
  2. preg_match_all("(<a(?:.*?)?href=\"(.*?)\"(?:.*?)?>)si", $text, $array);


W $array[1] powinny byc wszystkie linki. Nie jestem pewien czy dobrze dziala bo pisalem "z palca"..
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.