[Trennmuster] Dokumentation der Trennstellenauszeichnungen

Stephan Hennig mailing_list at arcor.de
Sa Aug 24 14:51:40 CEST 2013


Hallo,

anlässlich der kürzlichen Verwirrung um die Datei dateikopf einige
Bemerkungen:

1. Zwar habe ich eine Diskussionen um eine genauere Auszeichnung der
Trennstellen durch Trennung von Klassifizierung (=|-) und Wichtung
(Verdoppelung) von vor etwa einem Jahr im Hinterkopf, jene jedoch nur am
Rande verfolgt.  Wenn ich die Änderungen an dateikopf und dem/den
extract-Skript(en) vergleiche, fällt auf, dass diese zuletzt eher selten
gleichzeitig erfolgten:

> $ git log --format="%h %ai %an %s" dokumente/dateikopf
> a67907b 2013-08-04 19:20:22 +0200 Werner Lemberg Dokumentiere `-=' (noch nicht benutzt, aber notwendig).
> d66944b 2013-03-01 10:55:00 +0100 Werner Lemberg Tippfehler.
> 176027b 2012-12-31 16:02:06 +0100 Werner Lemberg Kleine Korrekturen am Dateikopf.
> 9e4db38 2012-05-22 00:06:32 +0200 Guenter Milde Tippfehler in Dateidokumentation.
> 4bdf0b0 2012-05-10 13:10:49 +0200 Guenter Milde Umstellen der Kodierung auf UTF-8.
> f5262b3 2012-05-04 01:31:15 +0200 Guenter Milde Verbesserte Beschreibung der Trennzeichen.
> 0acdbea 2012-05-02 16:52:00 +0200 Guenter Milde Dokumentiere Bindungsstaerkenmarkierung.
> f135913 2012-04-19 06:28:47 +0200 Werner Lemberg Aktualisiere Dateikopf.
> c2fc74a 2012-04-03 09:54:04 +0200 Guenter Milde Aktualisiere Dokumentation der Trennzeichen
> dacdf5b 2009-04-04 16:51:24 +0200 Werner Lemberg Aktualisierungen wegen `_' -> `-'.
> [...]

> $ git log --follow -M20% --format="%h %ai %an %s" skripte/extract-tex.pl
> 6e15a50 2013-03-08 13:18:58 +0100 Werner Lemberg [extract-tex] Neue Option -l, um Ausgabe in latin-1-Kodierung zu erzeugen.
> b9652ec 2013-03-01 14:19:34 +0100 Werner Lemberg [extract-tex] Neue Option -x, um Rohdaten auszugeben.
> 2563d46 2013-03-01 10:04:44 +0100 Werner Lemberg Ersetze die `extract-tex-xxx'-Skripten durch ein einziges, `extract-tex'.
> 15e4bc8 2013-02-20 09:18:46 +0100 Werner Lemberg Verbessere die Behandlung von Doppeldeutigkeiten.
> 58c179f 2013-02-20 08:05:11 +0100 Werner Lemberg Mache reguläre Ausdrücke in Perl-Skripten leserlicher.
> 32b7f9a 2012-05-12 07:43:18 +0200 Werner Lemberg Aktualisiere Makefile und Perl-Skripte.
> 4bdf0b0 2012-05-10 13:10:49 +0200 Guenter Milde Umstellen der Kodierung auf UTF-8.
> dbf8d74 2012-04-19 06:34:28 +0200 Werner Lemberg Aktualisiere Extraktionsskripte, um `==' u.ä. zu verarbeiten.
> 5c8881c 2012-04-18 01:21:11 +0200 Werner Lemberg Aktualisiere Perl-Scripte.
> dacdf5b 2009-04-04 16:51:24 +0200 Werner Lemberg Aktualisierungen wegen `_' -> `-'.
> [...]

Daher eine Frage: Sind die Dateien dokumente/dateikopf und
skripte/extract-tex.pl beide auf demselben Stand?  Versteht letzteres
Skript alle in ersterer Datei gezeigten Finessen?


2. Erhellend war für mich auch Günters jüngste Einlassung zum Vorgehen
bei der Trennstellenbewertung.  Dass diese vorrangig mit Blick auf das
Erstellen von Mustern zur Behandlung von Ligaturen und Rund-/Lang-s
erfolgt, war mir, wenn auch nicht ganz neu, so doch eine wertvolle
Erinnerung.  Ich denke, sowohl dieses Ziel als auch eine Diskussion des
Zusammenhangs von Trennstellen und Ligaturen bzw. Rund-/Lang-s sollte in
die Datei aufgenommen werden.  Leider stecke ich in der Materie nicht so
tief drin.  Kann das bitte jemand übernehmen?


3. Bezüglich der Wichtung von schlechten Trennstellen:

> #   .    irreführend (An·den.ken, Ost=en.de, Re|im|.port)
> #   ..   sinnentstellend (Ge·winn·er..war·tung)
> #   ...  anstößig (An|al-...pha-bet)

Nach meiner Einschätzung handelt es sich bei Anden-ken und Reim-port um
sinnentstellende Trennungen, bei Gewinner-wartung wiederum lediglich um
eine irreführende Trennung (scheinbarer und tatsächlicher Wortstamm sind
gleich).

Außerdem enthält die Wortliste bisher keine mehrfach
aufeinanderfolgenden Punkte.  Daher schlage ich folgende Änderung vor:

  .     nicht bewertete, unschöne Trennung
  ..    irreführend
  ...   sinnentstellend
  ....  anstößig

Andernfalls wäre die Bewertung . nicht vertrauenswürdig.  Sie entspräche
sowohl irreführenden als auch unbewerteten, unschönen Trennungen.

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster