Forum PHP.pl > Jak zablokować parsowanie strony?

Pomoc - Szukaj - Użytkownicy - Kalendarz

Pełna wersja: Jak zablokować parsowanie strony?

fluffy

26.08.2008, 10:04:26

Witam,

Czy ktoś zna sposób na zablokowanie parsowania własnej strony internetowej, tak aby użytkownicy innych stron nie byli w stanie tego robić korzystając np. z funkcji: curl_init?
Wiem, że istnieją takie sposoby, bo np. onet blokował taką możliwość w stosunku do strony głównej. Niemniej jednak nie znalazłem rozwiązania w internecie.

Nie jestem pewien czy jest to odpowiedni dział na forum. Jeżeli nie to przepraszam i proszę o przeniesienie go w odpowiednie miejsce.

A przede wszystkim mam nadzieję, że osoby, które znają rozwiązanie tego problemu, podzielą się wiedzą. Za co z góry dziękuję!

wookieb

26.08.2008, 10:06:39

Przy korzystaniu z wyszukiwarki można zrobić tokena graficznego. Metody na zablokowanie cUrl nie ma. Można próbować ze sprawdzaniem http_referer ale to mozna obejść curlem. Wiec skutecznej metody nie ma. Poza tym jak wtedy roboty miałyby indeksować twoją stronę?

mike

26.08.2008, 10:09:04

Nie da się. Pomysł równie niewykonalny co zabezpieczenie obrazka przed skopiowaniem ze strony.
Skoro już wyśiwetlasz stronę to nie masz możliwości zablokowania czytania jej.

fluffy

26.08.2008, 10:10:19

Nie blokowałbym podstron a jedynie stronę główną, tak więc informacje byłyby indeksowane. No bo w końcu informacje z onetu są indeksowane mimo tego że ma zablokowaną możliwość parsowania strony głównej.

mike

26.08.2008, 10:13:22

~fluffy Onet nie ma żadnej blokady parsowania strony głównej. Swobodnie możesz sobie ją przeczytać dowolną funkcją.
Jedyne co jesteś w stanie zrobić to nafaszerować wszystko AJAXem żeby treści były zasysane przez JavaScript. Tego się nie przeskoczy.

wookieb

26.08.2008, 10:14:59

Jakąś tam ma ale to da się obejść. Trzeba tylko wiedzieć jak.

Kod

$ch=curl_init('http://onet.pl');

curl_exec($ch);

Da nam tylko link do onetu. Natomiast file_get_contents juz przechodzi.

fluffy

26.08.2008, 10:17:56

Kiedyś próbowałem to się nie dało... może po zmianie szaty graficznej strony głównej z tego zrezygnowali, teraz tego nie sprawdziłem

Skoro mówicie że się nie da to się nie da ;P

Mike jeżeli dobrze Cię zrozumiałem to jak się będzie zasysać dane przez ajax'ik to curl nie pobierze już danych zassanych po załadowaniu podstawowej konstrukcji strony, tak?

wookieb

26.08.2008, 10:19:25

Tak. Ale jezeli ktoś się uprze to sobie wejdzie na strone i zobaczy które pliki ajaxowe pobierać.

mike

26.08.2008, 10:21:02

Cytat(fluffy @ 26.08.2008, 11:17:56 )

Mike jeżeli dobrze Cię zrozumiałem to jak się będzie zasysać dane przez ajax'ik to curl nie pobierze już danych zassanych po załadowaniu podstawowej konstrukcji strony, tak?

Dokładnie. Ponieważ funkcje typu file_get_contents() czy mechanizmy cURL nie potrafia wykonywać JavaScriptu. Większość robotów i pająków zresztą też.

kwiateusz

26.08.2008, 10:33:16

a co do curla i onetu moze po prostu sprawdzaja jak przegladarka w naglowkach sie przedstawia? i jak nie ejst to zadna znana to zwraca link do onetu itp

VGT

26.08.2008, 11:23:01

Gdy pobieracie strone onetu, czy to curl'em czy socketami czy co jeszcze wybierzecie, dodajcie do adresu "www"

Dostajecie tylko link (a konkretnie, to "HTTP/1.0 301 Moved Permanently") bo pobieracie strone http://onet.pl, zamiast http://www.onet.pl

To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.