pdf -> ocr? [Archiv]

Archiv verlassen und diese Seite im Standarddesign anzeigen : pdf -> ocr?

SeeksTheMoon

12-02-2003, 15:48

Moin!

Ich möchte über ein paar pdfs eine Texterkennung laufen lassen. Ich habe gocr. gocr will aber Bilder haben und keine pdf-Datei.
Gibt es eine Möglichkeit, die pdf-Dateien seitenweise zu jpeg zu extrahieren (unter Windows ging das mit dem Acrobat)? Nach dem ocr sollten die Bilder (oder was gocr so produziert) natürlich wieder zu pdfs zu machen sein.

Oder gibt es noch eine andere Lösung/ein besseres Programm?

Christoph

12-02-2003, 16:00

Wenn die PDF's normalen Text enthalten, dann kannst du einfach
in xpdf Bereiche markieren und in einem Texteditor mit der
mittleren Maustaste einfügen.

Mit dem Acrobat Reader geht das glaube ich nicht so gut.

Ansonsten kannst Du PDF nach PS konvertieren (das kann der
Acrobat Reader mit irgendeiner Kommandozeilenoption) und
dann mit ghostscript nach PNG konvertieren. Alle encoded
Textinformationen gehen dabei natürlich verloren und müssen
dann mit gocr wieder rekonstruiert werden, so dass dieser
Ansatz eigentlich völliger Blödsinn ist...

red.iceman

12-02-2003, 16:59

unter Linux gibt es: pdf2ps, pdftops und das allround-talent: imagemagick. im prinzip sollte alle drei dazu in der lage sein, allerdings hab ich es mit letzterem noch nie probiert, weil pdftops irgendwie naheliegender ist... ;-)

ri

PS: Sinn machts natuerlich nicht so richtig, es sei denn, du willst gocr testen. Oder was hast du vor??

Christoph

12-02-2003, 19:26

"pdf2ps" ist auf meinem System nur ein Shell script, das
ghostscript aufruft. Deswegen klappt pdf2ps nicht immer.

"acroread -toPostScript" ergibt nach meinen Erfahrungen bessere
Ergebnisse.

red.iceman

13-02-2003, 09:52

jupp, pdf2ps ist einfach ein gs-script. Im Gegensatz zu pdftops: (man pdftops)

--- snip ---
NAME
pdftops - Portable Document Format (PDF) to PostScript
converter (version 0.92)

SYNOPSIS
pdftops [options] [PDF-file [PS-file]]

DESCRIPTION
Pdftops converts Portable Document Format (PDF) files to
PostScript so they can be printed.

Pdftops reads the PDF file, PDF-file, and writes a
PostScript file, PS-file. If PS-file is not specified,
pdftops converts file.pdf to file.ps (or file.eps with the
-eps option). If PS-file is ´-', the PostScript is sent
to stdout.
(.....)
BUGS
No support for TrueType and Type 3 fonts.

AUTHOR
The pdftops software and documentation are copyright
1996-2000 Derek B. Noonburg (derekn@foolabs.com).

SEE ALSO
xpdf(1), pdftotext(1), pdfinfo(1), pdftopbm(1), pdfim_
ages(1)
http://www.foolabs.com/xpdf/
--- snip ---

Deswegen benutze _ich_ pdftops.

ri

SeeksTheMoon

13-02-2003, 15:02

das pdf beinhaltet Bilder (es sind scans) und keinen Text, deshalb brauche ich ja ocr um den Text in Bildform in "echten" Text zu konvertieren.
Ich habe das pdf mal in ein ps konvertiert und kann es auch mit Gimp öffnen.
Gibts da jetzt einen Trick, mit dem ich alle Seiten (auf einmal) als Bilder fürs ocr speichern kann?
Ich will das nicht manuell für jede Seite machen, da wächst mir ja ein Bart vor dem Rechner.

Außerdem soll es nach dem ocr wieder ein pdf werden...

/*Edit:

gocr schluckt auch ps Dateien. Allerdings kommt bei mir die Meldung "no spaces found" und gocr erkennt keinen Text...

*/