Pomoc - Szukaj - Użytkownicy - Kalendarz
Pełna wersja: Wyciąganie treści z HTML
Forum PHP.pl > Inne > Hydepark
sztosz
Mam problem, musze wyciagnąć z plików HTML "treść", pozbyć się wszystkich znaczników linków image'ów itp. Pozostwic wyłącznie to co jest najwazniejsze na stronie, czysty tekst. Wiem że znajduje sie poiedzy dwoma znacznikami. I sam bym sobie napisał prosty skrypt w php żeby to zrobił.

No ale niestety jest ALE... Tych pliów jest ponad 50 tyś.

Juz nie wspomnę o tym że komp potrafi mi sie zwiesic jak to przeglądam. Chyba że znacie jakąś przegladarke zawartości dyku która bezproblemowo obsłuży (da sie przeglądać) ponad pół gigowy katalog z wyzej wspomnianą iloscią plików? Tak to dostałem i nawet nie wiem jak to podzielić, kiedy przejrzeć prawie sie nie da sad.gif
Chewolf
Jeśli kazdy tekst jest podobnie umiejscowiony, miedzy identycznymi znacznikami. To najprosciej jest napisac skrypt w php lub maly programik w C/C++ czy czymś innym. Oczywiście wszystkiego od razu żaden program nie otworzy musialbys te 50 tys podzielic i szybko bys sie z tym uwinal. A po za tym twoj komp wiesza sie jak otwierasz kilkaset plików, ale jak program bedzie otwieral pokolei, jeden plik o danym rozszerzeniu to bedzie ok.
sztosz
No dobra programik to mogę napisać. Ale problem jest z tym że te ponad 50.000 plików mam w jednym katalogu. I nie mam jak tego podzielić bo po prostu nie wiem jak, samo otworzenie katalogu exploratorem albo Total Commanderem to prawie samobójstwo. Więc pomyslałem sobie, że może ktoś zna jakiś program który by to potrafił z HTML wyciągnąć i jeszcze poukładać, a jeżeli nikt nie zna, to jakiś Menadżer Plików który poradzi sobie z taką ilością plików w katalogu.
dr_bonzo
W php, wczytujesz zawartosc katalogu (opendir, readdir) -> dostajesz po kolei nazwy plikow -> kazdy z nich otwierasz pojedynczo i przepuszczasz przez funkcje, ktora wyciagnie z nich szukana tresc -> zapisujesz tresc do pliku (np. w innym katalogu w pliku o takiej samej nazwie jak ten otwierany).

Najlepiej uzyc do tego php w trybie CLI (command line), albo ustawic max czas wykonania skryptu na zero.
sztosz
Ok spróbuję, ale coś marno to widze sad.gif
dr_bonzo
Nie ma w tym nic trudnego:

- na forum jest kilka skryptow przegladania katalogu
- odczyt pliku -- trudne? (file_get_contents)
- zapis wynikow (file_put_contents())

no, moze wyszukanie jest trudniejsze (wyrazenia regularne) smile.gif
sztosz
Mi właśnie chodzi o to przeglądanie katalogu, plików dużo, a jeszcze będę musiał się babrać z wyrażeniami regularnymi w nazwach plików, żeby to poządnie poukładać. Dzięki wogóle za odzew smile.gif Jakoś sobie poradze, muszę smile.gif
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę kliknij tutaj.
Invision Power Board © 2001-2025 Invision Power Services, Inc.