Witam,

Mam całkiem fajne zadanie, bowiem muszę napisać konwerter PDF do plików HTML. I tutaj kilka pytań:

1) Czy możecie polecić jakieś gotowe narzędzia/biblioteki do takowej konwersji?
2) Czy uda mi się również pobrać zdjęcia / niestandardowe czcionki / etc?
3) Czy ktokolwiek ma jakieś doświadczenie w temacie i może się nim podzielić?
4) Co z polskimi znakami, czy narzędzia typu pdf2txt sobie z tym poradzą?

Kilka moich wytycznych:

1) Wiem, że nie zawsze da się odczytać tekst z PDF. Czy nie obejdzie się bez OCR, czy jednak są łatwiejsze metody?

2) W swoim narzędziu zastosuję następujące rozwiązanie - jest przycisk "konwersuj pdf to html", klikam i wczytuję PDF, chwilę serwer pracuje i zwraca mi wynik. Następnie przechodzę do formularza, w którym widzę cały pobrany tekst i mam możliwość dokonania korekty / poprawek. Czy to dobre rozwiązanie?

3) Jest też pomysł na skorzystanie z Google Docs - wczytuję pdf przez ich narzędzie, po ich stronie jest odczytywane, następnie otwieram i mam już przekonwertowane do HTML (wszystko to będzie zautomatyzowane). Czy to najlepsza opcja czy mogę to samo zrobić przy pomocy jakiegoś narzędzia, bez udziału Gogole?

I to by było na tyle, proszę o pomoc osoby mające doświadczenie w temacie jak się do tego zabrać.