Hallo zusammen,
wie im
alten Topic bereits angekündigt habe ich mir das Profibuch geschnappt und es durch Omnipage gejagt. Dass das kein Selbstgänger werden würde, war mir irgendwie klar.
Probleme:1. Das ganze PDF in Omnipage laden geht nicht, Prozess stürzt bei 1,4 GB alloziertem RAM ab (dann sind aber gerade mal 450 Seiten geladen).
2. Ich muss jede Seite einzeln in Textbereich, Grafikbereich und Tabellenbereich unterteilen
3. Texterkennung hat bei Quellcode so seine Schwächen (l = 1 oder 4 = # etc.)
Lösungen:zu 1.: Ich habe das PDF in 4 Teile à 400 Seiten "zerhackt" und lasse die nun einzeln durch Omnipage laufen.
zu 2.: Dauert einfach ein bisschen (pro 400 Seiten ca. 2 Tage)!
zu 3.: Die OCR-Ergebnisse werden bei "Unklarheiten" von Hand korrigiert, hier gibt es aber noch ein Problem: Manchmal fragt Omnipage nicht, da es der Meinung ist, den Text richtig erkannt zu haben. Deswegen muss der gesamte Text nochmal Korrektur gelesen werden.
Deswegen benötige ich die Hilfe vieler Freiwilliger!Ich würde das Ergebnis als Word freigeben und wir verteilen die verschiedenen Kapitel auf verschiedene Köpfe, die ihr Kapitel jeweils nochmal durchschauen und korrigieren. Die Ergebnisse würde ich wieder zusammenführen und als Gesamtdokument hier im Forum zur Verfügung stellen (Word / PDF).
Was haltet ihr davon und wer macht mit?
Gruß
Sascha (alias Blackswan)