[Trennmuster] Kommentare zu »umformatierung.py«
Werner LEMBERG
wl at gnu.org
Mo Mär 26 14:04:32 CEST 2018
Hier ein neuer Versuch einer Dokumentation.
Meine Perl-Version »wl-new12old.pl« schafft jetzt eine korrekte
Konversion von Kurz- zu Langformat und ist im git-Repositorium :-) Zum
Ausführen braucht man neben ein paar separaten Perl-Modulen (die man
mit dem perl-Hilfsprogramm »cpan« einfach holen kann) auch einen
M4-Präprozessor (z.B. GNU m4). Das Skript ist mehr als doppelt so
schnell wie »umformatierung.py«, ist aber deutlich spartanischer im
Komfort und setzt eine wohlgeformte Kurzliste voraus.
----------------------------------------------------------------------
Die neue Kurzversion der Wortliste
==================================
Eine Zeile ist ein Eintrag mit bis zu fünf Feldern, die implizit oder
explizit gesetzt werden.
Feld 1, »de«:
Wort mit Trennungen nach aktueller Rechtschreibung (de-1996).
Einziges Pflichtfeld.
»-1-«, falls die Schreibung der folgenden Felder in de-1996
unzulässig ist (z.B. »-1-;Pro<zeß«).
Anderenfalls werden die Wortformen aller anderen Felder implizit
über Transformationsregeln aus diesem Feld abgeleitet.
Feld 2, »de-1901«:
Wort mit Trennungen nach traditioneller Rechtschreibung (de-1901).
»-2-«, falls die implizit abgeleitete Schreibung in de-1901
unzulässig ist (z.B. »Ur<laubs=tipp;-2-«).
Anderenfalls werden die Felder »de-1901-x-versal« und »de-CH-1901«
implizit über Transformationsregeln aus diesem Feld abgeleitet und
nicht aus Feld »de«.
Feld 3, »de-CH« oder »de-x-versal«:
Wort mit ß-Ersatzschreibung, die in der Schweiz und bei Satz mit
Großbuchstaben oder Kapitälchen benutzt wird. Trennungen nach
aktueller Rechtschreibung.
»-3-«, falls nicht für diesen Eintrag relevant und weitere Felder
folgen.
Feld 4, »de-1901-x-versal«:
Wort mit ß-Ersatzschreibung für de-1901 mit Großbuchstaben oder
Kapitälchen.
»-4-«, falls nicht für diesen Eintrag relevant und ein weiteres Feld
folgt.
Feld 5, »de-CH-1901«:
Wort mit ß-Ersatzschreibung, die der Schweiz benutzt wird. Das sind
insbesondere Wörter mit »sss« gefolgt von einem Vokal, die wie
andere Dreifachkonsonanten gehandhabt wurden (also anders, als bei
Ersatzschreibung in Deutschland und Österreich), z.B. »süssauer«
----------------------------------------------------------------------
Anmerkungen:
(1) Wie man sehen kann, sind die Felddefinitionen deutlich
vereinfacht. Im besonderen sind »Leerfelder« am Ende eines
Eintrags (außer »-2-«) nicht notwendig. Derzeit gibt's ganz
wenige Einträge in der Kurzliste (unter Anwendung von
»umformatierung.py« mit den Änderungen vom 24. März), wo solche
redundanten Felder noch vorhanden sind.
Soll das so beibehalten werden, der besseren Lesbarkeit halber?
Dann müßte ich obige Beschreibung leicht abändern. Ich fände es
aber besser, wenn redundante Leereinträge weggelassen werden...
(2) Wollen wir, daß die Kurzlisteneinträge eineindeutig sind? Das ist
ja ein Vorteil des Langformats (unter der Prämisse, daß stets der
Eintrag mit den wenigsten explizit gesetzten Feldern genommen
wird). Wenn ja, wie errreichen wir das?
(3) Die Regeln zur Kommentarsetzung in der Günters Konversionsskript
von Kurz- zu Langformat sind
* Der Eintrag für das erste nicht-leere Feld einer Zeile wird
explizit mit einem Kommentar gesetzt (auch wenn er leer sein
sollte).
* Abgeleitete Kommentare werden gesetzt, falls sie nicht-leer
sind und kein expliziter Eintrag vorhanden ist.
War mühsam, das herauszufinden; es sollte vielleicht irgendwo
explizit dokumentiert werden.
Werner
Mehr Informationen über die Mailingliste Trennmuster