[Trennmuster] Dokumentation
Guenter Milde
milde at users.sf.net
Di Aug 27 16:28:14 CEST 2013
Liebe Trennmustler,
aus aktuellem Anlaß habe ich mir Gedanken über die Dokumentation der
Wortliste gemacht. Neben der angehängten Aktualisierung/Änderung schlage ich
vor, die sicherlich ursprünglich als einführenden Kommentar zur "wortliste"
gedachte Datei "dateikopf"
* separat zu halten,
* ihrer Kommentarzeichen zu berauben, und
* mit einem aussagekräftigeren Namen zu versehen
(leider fällt mir kein wirklich überzeugender Vorschlag ein).
mit freundlichen Grüßen
Günter
diff --git a/dokumente/dateikopf b/dokumente/dateikopf
index 19c3aa6..799381d 100644
@@ -4,7 +4,8 @@
#
# kompiliert von Werner Lemberg <wl at gnu.org>
#
-# Bedeutung der Felder:
+# Bedeutung der Felder
+# ====================
#
# 1 Wort ungetrennt
# 2 Wort mit Trennungen, falls für alle Varianten identisch,
@@ -36,59 +37,82 @@
# (deutsch)schweizerische die Felder 2, 3, 5, 6 und 8. Felder mit höherer
# Feldnummer haben Priorität.
#
-#
+#
+# Kennzeichnung der Trennstellen
+# ==============================
+#
+# Die Charakterisierung und Wichtung der Trennstellen ist nicht vollständig.
+# Sie soll die Nutzung der Wortliste für die Bestimmung der "Güte" einer
+# Trennstelle und für die regelbasierte Entscheidung über den Aufbruch
+# typographischer Ligaturen und die Schreibung des S-Lautes (rund-s vs.
+# lang-s) ermöglichen.
+#
# Folgende Zeichen kennzeichnen Trennstellen:
-#
-# = Trennstelle an Wortfugen (Wort=fu-ge)
-# | Trennstelle nach Präfix (Vor|sil-be)
-# - Trennstelle in einfachem oder suffigiertem Wort (ne-ben)
-# · (noch) nicht kategorisierte Trennstelle
-#
+#
+# · nicht kategorisiert
+#
+# = an Wortfugen (zwischen Grundmorphemen): Wort=fu-ge
+# | nach Präfix: Vor|sil-be
+# - innerhalb eines Morphems oder vor einem Suffix: ne-ben, frag-lich
+#
+# Die Unterscheidung, ob ein Wortbestandteil ein Präfix oder ein Grundmorphem
+# ist, ist oft nicht eindeutig:
+#
+# durch|ge-hen oder durch=ge-hen
+# drauf=los, drauf|los, oder drauf-los
+#
# Für die Bindungsstärke B von Trennstellen verschiedener Kategorien gilt
# B(-) > B(|) > B(=):
-#
+#
# Aus|wahl=lis-te (Aus + wahl) + liste
# fern=ab||ge|le-gen fern + (ab + (ge + legen))
-#
-# Doppel- und Dreifachtrennzeichen markieren die unterschiedliche
-# Bindungsstärke von Trennungen der gleichen Kategorie:
-#
+#
+# Die unterschiedliche Bindungsstärke von Trennungen der gleichen Kategorie
+# kann durch Doppel- und Dreifachtrennzeichen markiert werden:
+#
# Alp=horn==trio (Alp + horn) + trio
# un||voll|stän-dig un + (voll + ständig)
# nach|||zu||voll|zie-hend nach + (zu + (voll + ziehend))
-#
+#
# Verschiedene Trennstellen der gleichen Kategorie ohne Doppelung bezeichnen
# entweder gleichwertige Wortbestandteile, Zerlegungsalternativen oder sind
-# einfach noch nicht behandelt:
-#
+# (noch) nicht gewichtet:
+#
# Abend=brot=zeit (Abend + brot) + zeit oder Abend + (brot + zeit)
-#
+# un|voll|stän-dig un + (voll + ständig), aber nicht markiert
+#
# Das gemischte Trennzeichen »|=« kennzeichnet die Bindungverhältnisse,
# wenn sich ein echter Präfix auf das gesamte folgende Kompositum bezieht:
-#
+#
# un|=wahr=schein-lich un + (wahr + scheinlich)
-#
+#
# Das gemischte Trennzeichen »-=« kennzeichnet die Bindungsverhältnisse,
# wenn sich beispielsweise ein Suffix auf das gesamte vorhergehende
# Kompositum bezieht:
-#
+#
# Zwei=deu-tig-=kei-ten (Zwei + deutig) + keiten
# Ei-gen--tüm-=lich--=kei-ten ((Eigen + tüm ) + lich) + keiten
-#
+#
# Ebenso wie die Charakterisierung ist die Markierung der Bindungstärke
# unvollständig.
-#
-#
-# Ungünstige Trennstellen sind mit einem Punkt markiert. Der Punkt kann
-# einem (oder mehreren) Trennzeichen zur Kategorisierung folgen.
-# Besonders ungünstige Trennstellen können mit mehreren Punkten
-# gekennzeichnet sein.
-#
-# . irreführend (An·den.ken, Ost=en.de, Re|im|.port)
-# .. sinnentstellend (Ge·winn·er..war·tung)
-# ... anstößig (An|al-...pha-bet)
-#
-#
+#
+# Ungünstige (irreführende oder sinnentstellende) Trennstellen sind mit einem
+# Punkt markiert. Der Punkt ersetzt das Zeichen für nicht kategorisierte
+# Trennstellen oder folgt auf Trennzeichen zur Kategorisierung. Besonders
+# ungünstige Trennstellen können mit mehreren Punkten gekennzeichnet sein.
+#
+# . ungünstig: An·den.ken, Ost=en.de, Re|im|.port
+# .. sehr ungünstig: Ge·winn·er..war·tung
+# ... äußerst ungünstig: An|al-...pha-bet
+#
+# Auch die Markierung ungünstiger Trennstellen ist weder eindeutig noch
+# vollständig. Bei der Generation der Trenn-Pattern für TeX werden alle als
+# ungünstige markierten Trennstellen als nicht vorhanden gewertet.
+#
+#
+# Spezielle Trennungen
+# ====================
+#
# Folgende Notation wird verwendet, um spezielle Trennungen (für die
# traditionelle Rechtschreibung) zu kennzeichnen:
#
Mehr Informationen über die Mailingliste Trennmuster