Apache Tika korzysta w dużym skrócie z
tego.
Nie jest to żadna masakra, a jedynie wymaga porządnego serwera - który pozwala PHPowi uruchamianie programów w Javie.
Za pomocą Apache Tika robiłem całkiem konkretny serwis, który indeksował zawartość najróżniejszych rodzajów plików, w tym również PDFów. I wyciąganie zawartości było jednym z łatwiejszych zadań

Tworzenie PDFów i szereg funkcji... tylko nie mów że FPDF, bo to masochizm w czystej postaci. Zobacz
Flying saucer lub jego wrappera
ParadoxPDF . Z tymi narzędziami życie jest po prostu prostsze