[Trennmuster] Kommentare zu »umformatierung.py«

Werner LEMBERG wl at gnu.org
Mo Mär 26 14:04:32 CEST 2018


Hier ein neuer Versuch einer Dokumentation.

Meine Perl-Version »wl-new12old.pl« schafft jetzt eine korrekte
Konversion von Kurz- zu Langformat und ist im git-Repositorium :-) Zum
Ausführen braucht man neben ein paar separaten Perl-Modulen (die man
mit dem perl-Hilfsprogramm »cpan« einfach holen kann) auch einen
M4-Präprozessor (z.B. GNU m4).  Das Skript ist mehr als doppelt so
schnell wie »umformatierung.py«, ist aber deutlich spartanischer im
Komfort und setzt eine wohlgeformte Kurzliste voraus.


----------------------------------------------------------------------


Die neue Kurzversion der Wortliste
==================================


Eine Zeile ist ein Eintrag mit bis zu fünf Feldern, die implizit oder
explizit gesetzt werden.

Feld 1, »de«:
  Wort mit Trennungen nach aktueller Rechtschreibung (de-1996).

  Einziges Pflichtfeld.

  »-1-«, falls die Schreibung der folgenden Felder in de-1996
  unzulässig ist (z.B. »-1-;Pro<zeß«).

  Anderenfalls werden die Wortformen aller anderen Felder implizit
  über Transformationsregeln aus diesem Feld abgeleitet.

Feld 2, »de-1901«:
  Wort mit Trennungen nach traditioneller Rechtschreibung (de-1901).

  »-2-«, falls die implizit abgeleitete Schreibung in de-1901
  unzulässig ist (z.B. »Ur<laubs=tipp;-2-«).

  Anderenfalls werden die Felder »de-1901-x-versal« und »de-CH-1901«
  implizit über Transformationsregeln aus diesem Feld abgeleitet und
  nicht aus Feld »de«.

Feld 3, »de-CH« oder »de-x-versal«:
  Wort mit ß-Ersatzschreibung, die in der Schweiz und bei Satz mit
  Großbuchstaben oder Kapitälchen benutzt wird.  Trennungen nach
  aktueller Rechtschreibung.

  »-3-«, falls nicht für diesen Eintrag relevant und weitere Felder
  folgen.

Feld 4, »de-1901-x-versal«:
  Wort mit ß-Ersatzschreibung für de-1901 mit Großbuchstaben oder
  Kapitälchen.

  »-4-«, falls nicht für diesen Eintrag relevant und ein weiteres Feld
  folgt.

Feld 5, »de-CH-1901«:
  Wort mit ß-Ersatzschreibung, die der Schweiz benutzt wird.  Das sind
  insbesondere Wörter mit »sss« gefolgt von einem Vokal, die wie
  andere Dreifachkonsonanten gehandhabt wurden (also anders, als bei
  Ersatzschreibung in Deutschland und Österreich), z.B. »süssauer«


----------------------------------------------------------------------


Anmerkungen:

(1) Wie man sehen kann, sind die Felddefinitionen deutlich
    vereinfacht.  Im besonderen sind »Leerfelder« am Ende eines
    Eintrags (außer »-2-«) nicht notwendig.  Derzeit gibt's ganz
    wenige Einträge in der Kurzliste (unter Anwendung von
    »umformatierung.py« mit den Änderungen vom 24. März), wo solche
    redundanten Felder noch vorhanden sind.

    Soll das so beibehalten werden, der besseren Lesbarkeit halber?
    Dann müßte ich obige Beschreibung leicht abändern.  Ich fände es
    aber besser, wenn redundante Leereinträge weggelassen werden...

(2) Wollen wir, daß die Kurzlisteneinträge eineindeutig sind?  Das ist
    ja ein Vorteil des Langformats (unter der Prämisse, daß stets der
    Eintrag mit den wenigsten explizit gesetzten Feldern genommen
    wird).  Wenn ja, wie errreichen wir das?

(3) Die Regeln zur Kommentarsetzung in der Günters Konversionsskript
    von Kurz- zu Langformat sind

      * Der Eintrag für das erste nicht-leere Feld einer Zeile wird
        explizit mit einem Kommentar gesetzt (auch wenn er leer sein
        sollte).

      * Abgeleitete Kommentare werden gesetzt, falls sie nicht-leer
        sind und kein expliziter Eintrag vorhanden ist.

    War mühsam, das herauszufinden; es sollte vielleicht irgendwo
    explizit dokumentiert werden.


      Werner




Mehr Informationen über die Mailingliste Trennmuster