Interesuje mnie w jakis sposob mozna najlepiej analizowac tekst.
Mianowicie chodzi mi o podzielenie tekstu na slowa a w zasadzie maila na slowa lub ciagi znakow. Poniewaz chce analizowac nie tylko cialo maila ale takze naglowki.
Druga kwestia jest w jaki sposob np. rozroznic naglowek od ciala maila.
No i do tego jeszcze dochodzi cos takiego jak dzieki php moge analizowac maile ktore zawieraja niewidoczne znaki html czyli w jaki sposob bede wiedzial ze maila jest zbudowany przy uzyciu html-a i jezeli jest to w jaki sposob moge je wyekstrachowac?
Ogolnie chodzi o to, ze maile bede oznaczal jako spam lub nie spam i jednoczesnei slowom ktore znajduja sie w mailach spamowych nadawal odpowiedno wieksze wagi a tym ktore nie wystepuja w mailach spamowych , mniejsze wagi. - filtry bayesa

Chetnie tez zapoznam sie z materialami na temat filtrow beyesa , te juz widzialem :
-Beyesian Inference using php
-Plan for Spam
-wikipedia
Glownie chodzi mi o to w jaki sposob przypisywac wagi slowom ?