edious
7.06.2006, 13:56:01
Opis skryptu:
Skrypt ma na celu pobrac strone z podanego linku, nastepnie przzeglada kod html w poszukiwaniu linkow. po znalezieniu linku, wykrywa do jakiego pliku prowadzi i wybiera ten, ktory prowadzi do pliku o zadanym rozszerzeniu np:pdf
Jesli znajdzie takie linki, tworzy z nich tablice w ktorej zapisuje nazwe linku oraz adres url linka. Nastepnie sprawdza czy plik podany w linkach naprawde istnieje, a jesli tak, sprawdza jego rozmiar (kb), po czym zapisuje info o tych linkach w bazie. (nazwa linku, adres linku, typ pliku, rozmiar pliku, url strony).
Poradze sobie z: wczytaniem strony, zapisem danych do bazy, wyborem linkow z tablicy, sprawdzeniem cy pliki istnieja. reszta jest dla mnie jak narazie niewiadoma.
Czy ktosbwie, jak wykonac reszte zadan? jakie funkcje?
piczu
7.06.2006, 16:34:35
czyli co ci zostalo bo trudno mi sie doczytac
SongoQ
7.06.2006, 16:40:59
OK pliki pobierasz funkcja np fopen zaczytujesz i sprawdzasz rozmiary. Nic latwiejszego.
piczu
7.06.2006, 16:47:40
jesli chodzi o rozmiar plik to
filesize_remote
edious
7.06.2006, 17:01:14
zostalo do zrobienia: wykluczenie kodu html i pozostawienie tylko linkow czyli <a href=xxx> i ulozenie ich w tablicy. Nie wiem jak sprawdzic tez ich rozmiar, filesize(); odpada. Musze tez sprawdzic jaki typ pliku kryje sie pod linkiem.
zostalo do zrobienia: wykluczenie kodu html i pozostawienie tylko linkow czyli <a href=xxx> i ulozenie ich w tablicy. Nie wiem jak sprawdzic tez ich rozmiar, filesize(); odpada. Musze tez sprawdzic jaki typ pliku kryje sie pod linkiem.
edious
7.06.2006, 17:19:49
z tym ze trzeba zauwazyc to, ze strona lezy na innym serwerze i jest wczytywana poprzez http. Druga sprawa to wyczyscic caly kod html pozostawiajac tylko linki <a href.....
dyktek
7.06.2006, 19:20:39
preg-match-all http://forum.php.pl/index.php?showtopic=47488&hl= - tutaj masz przykład z ta funkcją musisz zmienić tylko wyrażenie regularne
<?php
preg_match_all('/<.*?a.*?href=s*?['"](.+)['"].*?>.*?</.*?a.*?>/i', $line, $matches);
edious
8.06.2006, 21:00:02
No chlopaki, dzieki wielkie

tak wlasnie myslalem z tymi wyrazeniami

pokombinuje, teraz to juz z gorki....
poprawnie:
<?php
'/<a.*?href=s*?['"](.+)['"].*?>.*?</a>/'
pytanko: a jak dopisac do tego zeby znalazl tylko te linki, ktore prowadza do pliku pdf np: www.xxx.pl/plik.pdf
Kod
'/<a.*?href=s*?[\'"](.+)\.pdf[\'"].*?>.*?<\/a>/'
chyba tak...
edious
9.06.2006, 09:46:12
wlasnie tak probowalem, no niestety cos nie dzialalo zbytnio. ponadto, nie wyrzuca wszystkiego. co prawda zostawia ten kod, co potrzeba, jednak zostawia takze inne, niedokonczone tagi html. To sie robi coraz trudniejsze.