Próbuję na dwa sposoby:
1. Pierwszy to biblioteka PhpOffice, gdzie niestety po napisaniu funkcji do odczytu otrzymuję sporo krzaczków.
2. Poniższa funkcja do konwersji z doc do stringa
public function read_doc($filename) { $n1 = ( ord($headers[0x21C]) - 1 ); $n2 = ( ( ord($headers[0x21D]) - 8 ) * 256 ); $n3 = ( ( ord($headers[0x21E]) * 256 ) * 256 ); $n4 = ( ( ( ord($headers[0x21F]) * 256 ) * 256 ) * 256 ); $textLength = ($n1 + $n2 + $n3 + $n4); //$content = nl2br($extracted_plaintext); return $content; } } }
Przy pierwszej metodzie dodanie linii $outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\t@\/\_\(\)]/", "" , $extracted_plaintext);
powoduje że krzaczki znikają jednak polskie znaki z nimi również.
Ktoś kiedyś miał podobny problem? Nie mogę znaleźć innych skryptów do tego typu zadań.