Mam dość trywialne pytanie.
Sprawa wygląda tak, że z dwóch źródeł (bazy i url) zaciągam kod html tej samej strony.
I teraz chcę porównać za pomocą ciągu znaków czy na pewno wygląd strony się nie zmienił, jednak może być sytuacja że zaciągnięty kod może delikatnie się różnić od tego w bazie, bo np. jak zaciągnę stronę z (wyobraźmy sobie) zaciągniętą sesją gdzie pisze "Witaj Maciej" to przez algorytm powinno to być uznane za tą samą stronę co z tekstem "Zaloguj się", jednak jeśli zostanie dodany nowy artykuł na stronie to algorytm powinien wykryć "nową wersję" strony.
I chciałem tutaj użyć funkcję Levenshteina levenshtein jednak z tego co wyczytałem w manualu może być max 255 znaków.
W związku z czym zastanawiam się czy zakodowanie obu wersji do md5 a następnie porównanie ich zda egzamin? Czy md5 może wykazać różnice lub podobieństwo? Jakie może być prawdopodobieństwo kolizji?
Edit: pomyłka chodziło mi o md5 nie base64
Dobra widzę że md5 nie był najlepszym pomysłem.
Jak by nie było niesamowicie wszystko muli przy tak długich ciągach znaków. Ma ktoś rozwiązanie jak to porównać żeby nie wywalało mi memory exceed?