Za pomocą curla i wyrażeń regularnych a także, get_meta_tags.
I teraz mam problem, mój serwis jest w kodowaniu UTF-8, baza danych wszędzie: utf8_unicode_ci
Przy wyciąganiu np danych z onet.pl albo interia.pl pojawiają się sławne krzaczki, albo w ogóle obcina ciąg i nie dodaje do bazy całości.
Jako że mój serwis ma być elastyczny nie mogę sobie zrobić po prostu:
$a = iconv('iso-8859-2', 'UTF8', $zmienna);
Bo wtedy strony które są w kodowaniu UTF-8 się sypią.
Próbowałem zdziałać coś funkcją mb_detect_encoding, jeżeli chodzi o UTF-8 to odczytuje kodowanie poprawnie, ale np iso-8859-2 już nie odczytuje więc problem występuje nadal.
Macie jakieś propozycje? może ja coś źle kminię
