djcinek
23.09.2004, 00:28:31
Czolem,
Mam taki problem - otoz rozchodzi sie o mozliwosc wczytania tresci pliku MS Word do bazy danych. Jak mialoby to dzialac:
1. uzytkownik wybiera plik przyklad.doc, zatwierdza
2. skrypt pobiera plik z lokalnego dysku, nastepnie kopiuje na serwer, oraz "czyta" jego tresc i umieszcza ja w bazie.
Po co to zamieszanie - szukanie slowa w tresci plikow lezacych w n-katalogow moze byc czasochlonne, szukanie w bazie zajmie chwile, dostane w odpowiedzi konkretna nazwe konkretnego pliku na podstawie skopiowanej tresci.
Czy spotkaliscie sie moze z jakims rozwiazaniem takiego problemu?
Bede wdzieczny za informacje,
pozdrawiam
jol.us_
7.10.2004, 11:00:48
Mialem podobny problem, niestety nie ma mozliwosci odczytu samego pliku... przynajmniej ja takowej nie znalazlem :|
Rozwiazaniem moze sie okazac narzedzie w stylu HTML Area (http://www.interactivetools.com/products/htmlarea/), ktore przyjmuje bezposrednie przeklejanie z dokumentow do pola tekstowego z zachowaniem stylow tekstu.
Wada rozwiazania: HTML Area dziala jedynie pod IE.
revyag
7.10.2004, 11:08:47
Jest wersja beta, która obsługuje więcej przeglądarek.
orson
7.10.2004, 20:23:15
witam ...
a szukales w manualu
http://www.php.net/manual/pl/ref.com.phpw samplach jest nawet przykladowa klasa przeksztalcajaca w locie doci do rtf ... problem jest taki ze dziala raczej na win32 ... i musisz miec worda of corz ... mozesz probowac odpalic przez dcom albo przez rpc na serwerze z *xem ale nie obejdzie sie bez drugiej maszyny w poblizu serwera z zainstalowanym wordem ... i zmian w konfigu serwera...
powodzenia
nocnyMark()
8.10.2004, 11:35:07
mysle ze sam pomysl rozwiazania problemu przeszukiwania jest dosc klopotliwy, bo:
- baza danych musiala by miec caly czas aktualna liste plikow i ich zawartosci.
(uzytkownicy musieliby wszystkie pliki albo wrzucac "przez" baze danych na dysk, albo skrypty musialy by dosc czesto odswiezac drzewo plikow)
- w taki sposob, baze zapychamy dokladna kopia danych, ktore juz w jedno miejsce sa wgrane - tracimy przynamniej 1.5 razy wiecej miejsca niz ten plik worda moglby zajmowac na dysku, bez tego skryptu.
tak wiec, wg mnie, potrzeba budowania takiego rozwiazania, musiala by przekroczyc koszty ktore sa z tym zwiazane (co najmniej te dwa co podalem)
------------------------
a co do rozwiazania, to zaczal bym od poszukania jakiegos konwertera doc2txt [jak pogoglujesz wpisujac doc2txt to wyskoczy kilka],
moze byc oparty o skrypt uruchamiany przez serwer www, a takze byc programem zewnetrzym, dzialajacym pod linuxem lub dosem. oba typy konwertera da sie wywolac z php, przekazac zrodlo i przeczytac wynik.
potem wynik w txt spokojnie mozna wrzucac do bazy i przeszukiwac.
orson
8.10.2004, 22:26:38
witam ...
w niektorych rozwiazaniach analizowania dokumentow moze byc bardzo przydatne ... w wewnetrznej sieci dla ktorej robilem zarzadzanie zasobami, analizowane sa wszystkie pliki doc, xls, i maile przechowywane na serwerach firmowych [active directory - udzial "dokumenty" z podfolderami userow/dzialow] oraz na dyskach userow [wybrane katalogi - ustalane odgornie] ... w bazach danych [ klaster mssql ] przechowywane sa pliki, 5 poprzednich wersji pliku [w opcjach administrator moze dla szczegolnie waznych danych ustawic archiwizacje kazdej wersji], sumy crc kazdej wersji oraz sciezki dla kazdej kopii pliku ... pliki sa zbierane co 20 minut [albo czesciej] i jezeli jakis sie zmienil to jest kopiowany do bazy, po aktualizacji pliku glownego kazdy plik w sieci jest aktualizowany [dosc skomplikowane zarzadzanie ale dziala]... przez interfejs www [przegladarka lub form na pulpicie - active desktop (bajerancko to wyglada - result laduje sie do iframe prosto na pulpit)] mozna przeprowadzac wyszukiwanie pelno textowe wraz ze score oraz wyszukiwaniem wyrazow podobnych ... system dziala z win98 [niektorych funkcji niema ale podstawowe sa], winnt oraz unixami ... bardzo usprawnia dzialanie firmy ... pod warunkiem oczywiscie ze jest co analizowac ... dla jarzyniaka sie nie nadaje ...
pozdrawiam
To jest wersja lo-fi głównej zawartości. Aby zobaczyć pełną wersję z większą zawartością, obrazkami i formatowaniem proszę
kliknij tutaj.