[Trennmuster] Fragen zu »sprachauszug.py«
Guenter Milde
milde at users.sf.net
Mo Aug 20 12:43:09 CEST 2018
On 17.08.18, Werner LEMBERG wrote:
Lieber Werner,
> Gerade habe ich
> sprachauszug.py < wortliste > wortliste.sprachauszug
> erzeugt und das mit der Ausgabe von
> perl extract-tex.pl -1 < wortliste > wortliste.extract-tex
> verglichen. Abgesehen von kleinen Bugs in meinem Perl-Skript sind mir
> dabei sofort drei Eigentümlichkeiten Deines Skripts aufgefallen.
> (1) Es befinden sich Kommentare in »wortliste.sprachauszug«. Soweit
> ich sehen kann, widerspricht das »sprachauszug.py --help«, wo
> explizit die Option »-v« erwähnt wird, um Kommentare
> beizubehalten. Falls das aber gewollt ist: Welche Option muß ich
> wählen, damit überhaupt keine Kommentare ausgegeben werden?
-v war für Kommentar*zeilen* (haben wir z.Zt. nicht in der wortliste)
und "Sprachvarianten als Kommentare".
Die angehängten Kommentare hatte ich bisher für meine Experimente dabehalten.
Neu: -v für angehängte Kommentare, --extra-verbose für die bisherige
Funktionalität.
> (2) Warum wird »=« in »--« u.ä. konvertiert, also z.B.
> drei--ein-halb---mil-lio-nen----fa-che ?
Wird es nicht ("=" wird "-", ehrlich).
Aber in der Wortliste steht
drei==ein=halb===mil-li-o-nen===>fa-che
und es gab den Fehler, "==" in "--" zu verwandeln (jetzt behoben).
> (3) Welches Argument für »--language« brauche ich, um sowohl Wörter
> mit »ß« als auch deren schweizer Äquivalente ausgeben zu lassen?
> Ich will also sowohl
> ab-bei-ße
> als auch
> ab-beis-se
> in der Ausgabeliste haben. Aus der Dokumentation geht das nicht
> hervor; es fehlt überhaupt eine Beschreibung, welche Sprachentags
> möglich sind.
Das ist ausführlich in wortliste.py beschrieben. Jetzt gibt es auch eine
Option zur Ausgabe der wichtigsten Tags.
Achtung: im Kurzformat haben diese eine leicht geänderte Bedeutung
(siehe wortliste.py), daher gilt:
`sprachauszug --sprachtags` \ne `sprachauszug -k --sprachtags`
> Ganz wichtig wäre meiner Meinung nach auch das folgende.
> (3) Bitte füge noch mehr Beispiele in der Ausgabe von »sprachauszug.py
> --help« ein.
Erledigt (die waren in skripte/python/MANIFEST).
> ... Ruft man nämlich »--stilliste« auf, finden sich lustige
> Einträge wie
> einfach(wort, alternative=0, symbol='-') ,
> und ich habe nicht die geringste Ahnung, was die Angaben in
> Klammern bedeuten,
Das ist in "stilfilter.py" ausführlich dokumentiert.
> und wie ich das in eine Kommandozeilenoption
> konvertieren kann.
Gar nicht.
Aber um die Liste und Beschreibung der Filter aktuell zu halten ohne alles
an mehreren Stellen abgleichen zu müssen ruft --stilliste die Python-Hilfe
des Moduls "stilfilter.py" auf.
> [Ein kleines Apropos: Obwohl ich »LANG=de_AT.UTF-8« als
> Umgebungsvariable gesetzt habe, zeigt »--stilliste« englische
> Wörter. Kannst Du das verbessern? Anderenfalls verdient das
> einen Bugreport, wo auch immer :-)]
Die Vermeidung von Denglisch ist eher ein "feature request" als ein
Fehlerbericht. Bitte bedenke, dass es sich bei sprachauszug.py
um ein experimentelles Skript handelt. (Soll es dermaleinst, nach
entsprechender "Reifung" zu den "Endnutzer-Programmen" nach skripte/
verlegt werden?)
Die Ausgabe von `sprachauszug.py --stilliste` komplett auf Deutsch
umzustellen ist mit unverhältnismäßig hohem Aufwand verbunden, da die
eingebaute Python-Hilfe nun einmal Englisch ist (sonst würde für
Standardmodule und international genutzte Module ein Sprachmix kommen).
Ich könnte zur Vermeidung von Sprachmix die Ausgabe komplett auf
Englisch umstellen, aber das ist wegen der linguistischen Fachbegriffe und
unserer eigenen Trennmuster-Nomenklatur auch nicht ideal.
Gruß und Dank,
Günter
Mehr Informationen über die Mailingliste Trennmuster