[Trennmuster] Parser fuer Wortliste
Stephan Hennig
mailing_list at arcor.de
Sa Feb 11 18:31:29 CET 2012
Am 11.02.2012 16:17, schrieb Werner LEMBERG:
>> Ziel der Übung ist nicht die kleine Statistik, die aus validate.lua
>> herausfällt, sondern alle Skripten auf Lua umzustellen.
>
> Noch eine Programmiersprache zu lernen :-( Ist das wirklich notwendig?
Huch, meine Hoffnung ist/war die, dass sich Lua im TeX-Umfeld wegen der
einfachen Verfügbarkeit auf allen Systemen für Skriptaufgaben sowieso
etablieren wird. Wenn dieser Zeitpunkt noch nicht gekommen ist oder
diese Annahme ganz falsch ist, dann haben wir wohl ein Problem. Du
bringst Perl ein, Günter Python und ich Lua. Dann pfuschen wir uns
wenigstens nicht gegenseitig im Kode herum. :-(
>> Was damit im Zusammenhang steht: Derzeit entspricht die Sortierung
>> der Wortliste Werners Lokale-Einstellung.
>
> Tut es nicht, denn ich arbeite normalerweise exklusiv mit UTF-8.
Ach so. Was ich eigentlich sagen wollte, die Sortierung wird von
Betriebssystemwerkzeugen übernommen und das ist nur begrenzt portabel.
> Die Einstellungen für die verschiedenen Wortlisten-Skripte, die ich
> intern verwende, nämlich
>
> LC_COLLATE=de_DE.ISO8859-1
> LC_CTYPE=de_DE.ISO8859-1
>
> müssen gesetzt werden, damit Textwerkzeuge wie »sort« oder »uniq«
> korrekt funktionieren.
Ich weiß, ich habe mich damit schon heftig herumgeschlagen als ich
damals den Artikel für die TK geschrieben hatte. GnuWin32 und Msys
existieren zwar. Aber sobald Lokaleeinstellungen ins Spiel kommen, wird
es hakelig. Manchmal funktioniert es, manchmal nicht und ich habe
inzwischen den Überblick verloren, welche LC-Variablen unter Windows
beachtet werden und welche nicht und ob jenes Werkzeug mit GnuWin32
besser funktionierte oder mit Msys. Localeabhängige Operationen und
GNU-Utilities überhaupt sind unter Windows ein Krampf. Einfache
Bash-Skripten gehen. Make funktioniert in der Regel auch.
Daher neuer Vorschlag: egal welche Sortierung verwendet wird, sie sollte
betriebssystemunabhängig sein, also aus irgendeiner Sprache heraus (ohne
LC-Variablen o. ä.).
Bleibt die Frage, wie wir den Sprachenzoo klein halten. Gibt es einen
kleinsten gemeinsamen Nenner? Wie gesagt, bei Perl und Python wäre ich
außen vor. Sollte ich mich mal mit einer von beiden Sprachen
beschäftigen, wäre es vermutlich Python. Java verwende ich
gelegentlich, aber auch ungern ...
> Die Sortierung ist mir im Prinzip egal, obwohl wir eine deutsche Liste
> haben und ich daher eigentlich eine deutsche Sortierung mir wünsche,
> als »ü« nach »u« beispielsweise und nicht nach »z«.
Das wäre sicher in jeder Sprache machbar.
> Weitaus wichtiger ist mir allerdings, daß die Unix-Werkzeuge
> funktionsfähig bleiben und ich nicht jedesmal die Liste vorsortieren
> muß.
Müssen es die Unix-Werkzeuge sein? Zum Ausprobieren, Herumspielen,
etc., ja klar. Aber können wir die Listenverwaltung nicht über portable
Skripten erledigen? Windows will leider nicht so wie Unix. Und es gibt
nunmal Windows-Nutzer. (VM geht hier momentan leider nicht. Ich sitze
vor einem Pentium 4 mit 512 MB und zu voller Platte.)
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster