PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : TeX parser für Java



nimrod
04-09-2008, 12:33
huhuuuu,

als frisch gebackener forengast möchte ich doch glatt meine erste frage loswerden.
normalerweise verspricht google solche antworten, doch hats mir diesmal jegliche sinnvolle stellungnahme verweigert ;)

es geht darum, dass ich für einen teil meiner arbeit bibtex snippets parsen muss. nun kommen da tatsächlich dreiste deutsche einher und meinen, es wäre rechtens umlaute in ihrem namen zu tragen. also sowas wie {\"a} bzw mit .de pkg {"a}. noch schlimmer wirds, wenn man dann einen skandinavischen namen mit kringel erwischt. :P

kennt einer von euch eine kleine, schlanke bibliothek die es fertig bringt einen string auf meine bedürfnisse - also am besten direkt in utf8 - zu decodieren?

viele grüße,

chris

voss
04-09-2008, 13:53
als frisch gebackener forengast möchte ich doch glatt meine erste frage loswerden.
normalerweise verspricht google solche antworten, doch hats mir diesmal jegliche sinnvolle stellungnahme verweigert ;)

es geht darum, dass ich für einen teil meiner arbeit bibtex snippets parsen muss. nun kommen da tatsächlich dreiste deutsche einher und meinen, es wäre rechtens umlaute in ihrem namen zu tragen. also sowas wie {\"a} bzw mit .de pkg {"a}. noch schlimmer wirds, wenn man dann einen skandinavischen namen mit kringel erwischt. :P

kennt einer von euch eine kleine, schlanke bibliothek die es fertig bringt einen string auf meine bedürfnisse - also am besten direkt in utf8 - zu decodieren?


Wozu willst du das dekodieren? Du gibst es so ein, wie es ist, fertig ...

Herbert

nimrod
04-09-2008, 14:21
hi voss.

es geht um eine automatisierte möglichkeit einträge in eine datenbank zu schreiben und hinterher anzuzeigen. in der anzeige möchte man "lesbare" zeichen zur verfügung haben und keine gruppierungen wie {\"a}.

nur mal angenommen, es ginge um müntefering, möchte man irgendwie nicht, dass m{\"u}ntefering als dargestellte version auftaucht. ;)

edit: einfacher wäre es natürlich, wenn jeder direkt umlaute eingibt, doch ist dies leider nicht ohne weiteres möglich, da es sich unter anderem um eine sehr große menge bestandsdaten handelt.

voss
04-09-2008, 15:07
es geht um eine automatisierte möglichkeit einträge in eine datenbank zu schreiben und hinterher anzuzeigen. in der anzeige möchte man "lesbare" zeichen zur verfügung haben und keine gruppierungen wie {\"a}.

nur mal angenommen, es ginge um müntefering, möchte man irgendwie nicht, dass m{\"u}ntefering als dargestellte version auftaucht. ;)

edit: einfacher wäre es natürlich, wenn jeder direkt umlaute eingibt, doch ist dies leider nicht ohne weiteres möglich, da es sich unter anderem um eine sehr große menge bestandsdaten handelt.

Dann konvertierst du es eben mit recode, was aber nur unter der
Voraussetzung geht, dass die vorliegende Kodierung bekannt ist. Aus
dem Text selbst lässt sich diese nicht ermitteln.

Herbert

nimrod
04-09-2008, 15:53
sorry voss, aber das geht ebenfalls nicht so einfach, beziehungsweise wäre nicht sehr schön.

ich hole mir die daten ja bereits aus einer db. das heißt, dort sind die snippets nicht als blob, sondern als text abgelegt.

jetzt möchte ich die daten lesbar machen und sie in eine andere tabelle schreiben, die auf die ursprüngliche referenziert wird.

zuerst hatte ich ein perl script geschrieben, welches die daten alle ausliest und mit tex::encode die aufgabe übernimmt sie in ein anständiges format zu bringen. allerdings geht dieser weg auf dauer leider nicht, da man vor hat - in zukunft - keine reine batch verarbeitung zu betreiben, sondern die daten direkt nach eingabe (es sollen keine vorschriften gemacht werden, wie die daten eingegeben werden) konvertiert werden müssen.

am liebsten wäre mich eine lib, wie das besagte perl modul. allerdings habe ich, wie gesagt, noch nichts dergleichen gefunden.

ein aufruf eines anderen scripts oder programms kommt aus gründen der homogenität und performance leider nicht in frage.

gruß, chris