Witam

potrzebuję zrobić indeksację treści z listy podanych stron www.

czy znajdę gotowy skrypt który mi ładnie odfiltruje potrzebny tekst ze stron www?
jeśli nie to jak przefiltrować taką pobraną stronę?

usunięcie wszystkich tagów html odpada, ponieważ muszę zostawić np h1, h2, b, i, u, itp

na razie mam taki kod
  1. preg_match ( '/<body>(.*)<\/body>/si', $this->_source, $body);
  2. $body = $body[0];
  3.  
  4. $body = preg_replace('@<script.*?>.*?</script>@si', '', $body);
  5. $body = preg_replace('@<form.*?>.*?</form>@si', '', $body);
  6. $body = preg_replace('@<!--.*?-->@si', '', $body);
  7. $body = preg_replace('@<div.*?>@si', '<div>', $body);
  8. $body = preg_replace('@<p.*?>@si', '<p>', $body);
  9.  
  10. $body = preg_replace('@<p.*?>(.*?)</p>@si', '{/1}', $body);

kolejno
- pobiera body
- usuwa JS
- usuwa formularze
- usuwa komentarze
- usuwa class i id z divów
- j/w ale z <p>

co jeszcze mogę dodać do takiego kodu? ewentualnie gdzie szukać gotowego rozwiązania