[Trennmuster] Fragen zu »sprachauszug.py«

Werner LEMBERG wl at gnu.org
Fr Aug 17 07:35:34 CEST 2018


Lieber Günter!


Gerade habe ich

  sprachauszug.py < wortliste > wortliste.sprachauszug

erzeugt und das mit der Ausgabe von

  perl extract-tex.pl -1 < wortliste > wortliste.extract-tex

verglichen.  Abgesehen von kleinen Bugs in meinem Perl-Skript sind mir
dabei sofort drei Eigentümlichkeiten Deines Skripts aufgefallen.

(1) Es befinden sich Kommentare in »wortliste.sprachauszug«.  Soweit
    ich sehen kann, widerspricht das »sprachauszug.py --help«, wo
    explizit die Option »-v« erwähnt wird, um Kommentare
    beizubehalten.  Falls das aber gewollt ist: Welche Option muß ich
    wählen, damit überhaupt keine Kommentare ausgegeben werden?

(2) Warum wird »=« in »--« u.ä. konvertiert, also z.B.

      drei--ein-halb---mil-lio-nen----fa-che    ?

    Für mich ist das sowohl undokumentiert als auch unerwartet.  Haben
    will ich nämlich stattdessen

      drei-ein-halb-mil-lio-nen-fa-che    .

(3) Welches Argument für »--language« brauche ich, um sowohl Wörter
    mit »ß« als auch deren schweizer Äquivalente ausgeben zu lassen?
    Ich will also sowohl

      ab-bei-ße

    als auch

      ab-beis-se

    in der Ausgabeliste haben.  Aus der Dokumentation geht das nicht
    hervor; es fehlt überhaupt eine Beschreibung, welche Sprachentags
    möglich sind.

Ganz wichtig wäre meiner Meinung nach auch das folgende.

(3) Bitte füge noch mehr Beispiele in der Ausgabe von »sprachauszug.py
    --help« ein.  Daß beispielsweise die anzuwendenden Filter mittels
    »-« im Argument von »--stil« zu trennen sind, kann man bloß
    erraten.  Ruft man nämlich »--stilliste« auf, finden sich lustige
    Einträge wie 

      einfach(wort, alternative=0, symbol='-')    ,

    und ich habe nicht die geringste Ahnung, was die Angaben in
    Klammern bedeuten, und wie ich das in eine Kommandozeilenoption
    konvertieren kann.

    [Ein kleines Apropos: Obwohl ich »LANG=de_AT.UTF-8« als
     Umgebungsvariable gesetzt habe, zeigt »--stilliste« englische
     Wörter.  Kannst Du das verbessern?  Anderenfalls verdient das
     einen Bugreport, wo auch immer :-)]


  Werner




Mehr Informationen über die Mailingliste Trennmuster