Allgemeines > Atari - Talk

ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF

(1/10) > >>

guest3384:
Hallo zusammen,

wie im alten Topic bereits angekündigt habe ich mir das Profibuch geschnappt und es durch Omnipage gejagt. Dass das kein Selbstgänger werden würde, war mir irgendwie klar.

Probleme:
1. Das ganze PDF in Omnipage laden geht nicht, Prozess stürzt bei 1,4 GB alloziertem RAM ab (dann sind aber gerade mal 450 Seiten geladen).
2. Ich muss jede Seite einzeln in Textbereich, Grafikbereich und Tabellenbereich unterteilen
3. Texterkennung hat bei Quellcode so seine Schwächen (l = 1 oder 4 = # etc.)

Lösungen:
zu 1.: Ich habe das PDF in 4 Teile à 400 Seiten "zerhackt" und lasse die nun einzeln durch Omnipage laufen.
zu 2.: Dauert einfach ein bisschen (pro 400 Seiten ca. 2 Tage)!  :)
zu 3.: Die OCR-Ergebnisse werden bei "Unklarheiten" von Hand korrigiert, hier gibt es aber noch ein Problem: Manchmal fragt Omnipage nicht, da es der Meinung ist, den Text richtig erkannt zu haben. Deswegen muss der gesamte Text nochmal Korrektur gelesen werden.

Deswegen benötige ich die Hilfe vieler Freiwilliger!

Ich würde das Ergebnis als Word freigeben und wir verteilen die verschiedenen Kapitel auf verschiedene Köpfe, die ihr Kapitel jeweils nochmal durchschauen und korrigieren. Die Ergebnisse würde ich wieder zusammenführen und als Gesamtdokument hier im Forum zur Verfügung stellen (Word / PDF).

Was haltet ihr davon und wer macht mit?

Gruß
Sascha (alias Blackswan)

Mathias:
Hallo Sascha!

Gute Initiative!
Leider habe ich schon zuviel um die Ohren als da mitarbeiten zu können. Aber ich hab zwei Anmerkungen ;)

• Mach doch bitte kein Word, sondern ein RTF (sei neuestem heißt das "Altes RTF" weil die Spinner ja den RTF Standard ändern mußten) draus. Dann können wir das auch auf unseren Atari lesen.

• Raufladen kann mans dann sicher auf Profibuch.de, hier im Forum gehts nur unter.

Milan:
Oder direkt im LibreOffice. Word kann auch OpenOffice bzw LibreOffice (*.odt) lesen

Milan

Gast120501:
RTF ist nicht gut, da das viele Formatierungen nicht unterstützt. Ich bevorzuge DOCX (Office 2007, 2010, 2013) oder ODT (Open/Libre-Office), wobei man beliebig zwiswchen beiden hin und her konvertieren kann, so dass das nicht zu einem Glaubenskrieg ausarten muss.

Mathias:
Weder ODT noch DOCX sind am Atari lesbar. Wenn man sich schon die Arbeit antut sollte man sich auch selber ernst nehmen und ein Format nutzen, das auch auf Ataris lesbar ist. Und mir fällt jetzt aber auch gar nichts ein was mit RTF nicht gehen würde.

Navigation

[0] Themen-Index

[#] Nächste Seite

Zur normalen Ansicht wechseln