Witam. Chciałbym pobrać treść strony ale nie kod html a samą treść wyświetlaną w wyszukiwarce.
Czy ktoś może mi pomóc w takim zadaniu?
Pozdrawiam, tsk.
nospor
11.09.2013, 13:14:57
No to pobierasz strone i przy pomocy wyrazen regularnych wyszukujesz na niej to co cie interesuje
tuskun
11.09.2013, 13:17:35
Tak, ale w sytuacji kiedy strona ma niektóre treści generowane przez js, takie działanie pominie te teksty ponieważ w kodzie html nie będzie tekstu tylko kod js.
I tu właśnie ma problem.
nospor
11.09.2013, 13:19:16
Cytat
I tu właśnie ma problem.
To tak ciezko od razu napisac to? Czy moze lubisz jak ktos ci odpisuje w nieskonczonosc?
W takim razie pobierasz kod strony, piszesz wlasny interpreter js i jestes w domu
redeemer
11.09.2013, 13:25:12
Kod JS musi też pobierać te wartości (no chyba, że jest generowany dynamiczne po stronie serwera, ale wątpie). Czy to ajax, czy tablica to te dane gdzieś są, wystarczy przeanalizować ten kod/requesty w przeglądarkowym developer tools.
@nospor: Nie musi pisać od nowa, może podpiąć np. v8
nospor
11.09.2013, 13:27:09
Cytat
@nospor: Nie musi pisać od nowa, może podpiąć np. v8
Ty to zawsze na łatwizne idziesz
tuskun
11.09.2013, 13:41:49
Ok, dziękuję.
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.