[Trennmuster] Parser fuer Wortliste
Stephan Hennig
mailing_list at arcor.de
So Feb 12 11:09:22 CET 2012
Am 11.02.2012 19:26, schrieb Werner LEMBERG:
>>> Noch eine Programmiersprache zu lernen :-( Ist das wirklich
>>> notwendig?
>>
>> Huch, meine Hoffnung ist/war die, dass sich Lua im TeX-Umfeld wegen
>> der einfachen Verfügbarkeit auf allen Systemen für Skriptaufgaben
>> sowieso etablieren wird.
>
> Das sehe ich durchaus positiv, aber drei Skriptsprachen für so ein
> kleines Projekt?
Ja, eben, /eine/ wäre nicht schlecht. Und ich hoffte, das könnte Lua
sein ...
> Sowohl Python als auch Perl gibt's genauso unter Windows.
Ja, zum reinen Ausführen von Skripten reicht das. Ich habe in beiden
Sprachen jedoch keine Kenntnisse.
> Ich bestehe nicht auf Perl, doch für mich am wertvollsten sind die
> regulären Ausdrücke. Soweit ich weiß, stellt weder Lua noch Python so
> viele Varianten zur Verfügung. Falls ich da mich irre, lasse ich mich
> gerne belehren.
Ich kenne und nutze sicher nur wenige Möglichkeiten regulärer Ausdrücke
(mit grep und sed). Aber bereits nach kurzer Beschäftigung mit PEG
möchte ich mich in reguläre Ausdrücke für kompliziertere Sachen als
kurze Einzeiler auf der Kommandozeile nicht mehr tiefer hineinknien
müssen. PEG gibt es für verschiedene Sprachen.
>> Wenn dieser Zeitpunkt noch nicht gekommen ist oder diese Annahme
>> ganz falsch ist, dann haben wir wohl ein Problem. Du bringst Perl
>> ein, Günter Python und ich Lua. Dann pfuschen wir uns wenigstens
>> nicht gegenseitig im Kode herum. :-(
>
> Das :-( sollte wohl ein :-) gewesen sein...
Naja, ich hatte schon die Doppelarbeit im Kopf ...
> jedoch wär's schade, wenn vieles doppelt zu machen wäre, oder wenn's
> an Interoperabilität scheitert.
Die Interoperabilität ließe sich vermutlich dadurch sicherstellen, dass
wir lokale- und kodierungsabhängige Aufgaben nicht auf Shell-Ebene,
sondern innerhalb von "richtigen" Skriptsprachen erledigen.
> Auf der anderen Seite: Niemand *muß* mit diesen Unix-Werkzeugen
> arbeiten! Ich will ja bloß eine sortierte Liste :-)
>
>> Daher neuer Vorschlag: egal welche Sortierung verwendet wird, sie
>> sollte betriebssystemunabhängig sein, also aus irgendeiner Sprache
>> heraus (ohne LC-Variablen o. ä.).
>
> Das verstehe ich nicht. Bitte gib ein Beispiel.
Ich gehe davon aus, dass in Perl, Python, Lua, Java etc. das Sortieren
plattformübergreifend robust funktioniert, mit allen möglichen
Kodierungen und unabhängig von den Lokaleeinstellungen des jeweiligen
Benutzers.
>>> Weitaus wichtiger ist mir allerdings, daß die Unix-Werkzeuge
>>> funktionsfähig bleiben und ich nicht jedesmal die Liste
>>> vorsortieren muß.
>>
>> Müssen es die Unix-Werkzeuge sein?
>
> Also ich verwende sie halt.
Außerhalb von Skripten ist das ja OK. Und für kodierungsunabhängige
Dinge, wie Dateioperationen, auch in Skripten. (Sofern Dateinamen keine
Umlaute enthalten. Dein UTF-8-kodierter Zweigname
'Keine-Haupttrennstellen-in-zweisilbigen-Wörtern' ist da schon auffällig
geworden.)
>> Aber können wir die Listenverwaltung nicht über portable Skripten
>> erledigen?
>
> Die wesentlichen Skripten im Repositorium sind sowieso alle Perl!
> Und was genau meinst Du mit »Listenverwaltung«?
:-) Die wesentlichen Skripten sind gar nicht im Repositorium. Daher
beschränke ich mich auf das Korrigieren einzelner Einträge in der
Wortliste (wenn überhaupt). Bei einem neuen Eintrag, der Umlaute
enthält, wüsste ich gar nicht, wo der von Hand einzusortieren wäre. Die
Sortierung der Liste geschieht meines Wissens mit einem Skript, welches
nur bei dir auf dem Rechner schlummert. Dafür suche ich zum Beispiel
eine portable Lösung.
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster