PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : pdf Dateien einlesen



sutterp
03-01-2007, 16:02
Ich soll folgendes Problem lösen:

Unsere Nutzfahrzeuge dürfen nur bestimmte Strassen benützen. Die Strassen welche benützt werden dürfen und unter welchen Bedingungen wird von der Strassenmeisterei in Form mehrer pdf Dateien aufgelistet. Jeden Mittwoch werden die Dateien nachgeführt. Die pdf Dateien enthalten die Stassen in tabellarischer Form.

Vor der Abfahrt der Nutzfahrzeuge soll jeweils geprüft werden, ob die vorgesehen Strecke benützbar ist.

Ich habe alle pdf Dateien lokal verfügbar, und möchte die Informationen in einer Datenbank abspeichern. Dazu muss ich diese aber lesen und verarbeiten können. Die pdf Funktionen von php scheinen aber nur für die Erstellung von pdf Dateien zu dienen.

Welche Möglichkeiten gibt es um pdf Dateien welche Daten in tabellarischer Form enthalten, in ein Format umzuwandeln welches nach Möglichkeit einfach in php zu verarbeiten ist? rtf? xml? csv? im Notfall .xls oder .doc?

pdftohtml taugt nicht,

~> pdftohtml Network03_Road_Table.pdf
Error: PDF version 1.6 -- xpdf supports version 1.4 (continuing anyway)
Error: Unsupported version/revision (4/4) of Standard security handler
Error: Couldn't read xref table


Die pdf Dateien sind offensichtlich in pdf-1.6 Format; xpdf will davon nichts wissen, ebensowenig alle anderen pdf tools, Konqueror / Mozilla plugins können ebenfalls nichts damit anfangen.

Für die Umwandlung von pdf zu ??? sollen folgende Einschränkungen beachtet werden:
Operating System: SuSE Linux V9.2. (kann für absehbare Zeit nicht upgraded werden, da proprietory Software benützt wird die spezifisch SuSE V9.2 benötigt)
PHP 4.3.8 (cli) (kann für absehbare Zeit nicht upgraded werden, zuviele php Programme müssen nachgeführt werden für php 5.
xpdf 3.00 (Upgrade unter Umständen möglich)
Das ganze soll in batch mode, ohne Benützer einwirkung erfolgen.

Tips, Vorschläge und Anregungen sind höchst willkommen.

Vielen Dank im Voraus

tschloss
03-01-2007, 16:27
Ich verwende dieses hier

/EDIT: gheört auch zum XPdf-Package....


pdftotext -?
pdftotext version 3.00
Copyright 1996-2004 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
-f <int> : first page to convert
-l <int> : last page to convert
-layout : maintain original physical layout
-raw : keep strings in content stream order
-htmlmeta : generate a simple HTML file, including the meta information
-enc <string> : output text encoding name
-eol <string> : output end-of-line convention (unix, dos, or mac)
-nopgbrk : don't insert page breaks between pages
-opw <string> : owner password (for encrypted files)
-upw <string> : user password (for encrypted files)
-q : don't print any messages or errors
-cfg <string> : configuration file to use in place of .xpdfrc
-v : print copyright and version info
-h : print usage information
-help : print usage information
--help : print usage information
-? : print usage information


Keine Ahnung, ob das -mit welchen Libs- deine PDFs erkennt. Bei mir hat es bisher noch nicht gestreikt.

undefined
04-01-2007, 19:45
pdflib kann das jedoch ist die Lizens nicht ohne. Man Rechnet hier mit CPU's pro System, bei einem Server mit 4 CPU's kann das schon teuer werden :rolleyes:
http://www.pdflib.com/de/cn/
EDIT: Habe gerade noch mal nachgesehen das haben sie wieder gestrichen! (gut so - war absolut überteuert)
http://www.pdflib.com/de/produkte/pdflib-familie/features/ (PDF import (PDI))