[Trennmuster] Wie kategorisieren?
Guenter Milde
milde at users.sf.net
Fr Jan 24 11:07:41 CET 2014
On 24.01.14, Werner LEMBERG wrote:
> > * mehr Fehler aufzuspüren als neue einzubauen,
> Hehe, wie wahr. Sehr hilfreich für die Fehlerauffindung, weil nur
> musterbasiert und daher komplett unabhängig von grammatikalischen
> Feinheiten, ist die Inspektion der »pattmp.[1-7]«-Dateien nach »make
> major«. Mein letzter Commit korrigiert da so einiges.
Ich danke Dir für die zahlreichen Korrekturen und Verbesserungen. Eine
unabhängige Validation ist wirklich hilfreich.
Allerdings beschreibt die offizielle Dokumentation sowohl Prä- als auch
Suffixauszeichnung als optional - Probleme bei der Zuordnung von
"|" und "--" bedeuten nicht unbedingt Fehler, sondern meist Inkonsistenzen.
Beim Ziel "major" würde ich gern nur Trennstellen, die mit "=" beginnen
(also Wortfugen) berücksichtig sehen. Dort sollten wir in der Wortliste auch
Konsistenz garantieren (da gibt es sowohl Sisisi Altlasten als auch
Faselfehler und problematisch/unklare Fälle bei der Kategorisierung mit
skripte/python).
Zusätzlich könnte ein Ziel "medium" weitere "Morphemtrennstellen"
berücksichtigen, wenn diese im hinreichenden Abstand von Wortfugen
auftreten. Wenn dann noch extralange Wörter ohne Fugen eine
Trennmöglichkeit nach Sprechsilben (wieder im hinreichenden Abstand von
eventuellen Haupttrennstellen) erhielten, wäre ein Trennmustersatz mit
hohem Anwendungspotential im Flattersatz und "online"-Texten möglich.
Während bei der Präfixmarkierung Fälle von "-" nach (offensichtlichem)
Präfix als "Altlasten" anzusehen sind und Handlungsbedarf implizieren, sind
alle Doppelauszeichnungen ("==", "|=", "--", "-=") optional. Das heißt auch,
dass die Wertung von "--" als "Haupttrennstelle" prinzipiell problematisch
ist.
> Schau Dir das bitte einmal an – sehr auffällig ist, daß oft Einträge
> mit »ss« und »ck« für Versalien und alte Rechtschreibung betroffen
> sind.
Die Kategorisierung ist vorrangig für de-1901 vorangetrieben, weil ich
dort die Kategorien für die Lang-s-Schreibung benötige. Insbesondere die
schweizer Sprachvarianten und die Kapitälchen sind nur dann
berücksichtigt, wenn sie sich automatisch übertragen lassen. Außerdem
sind in einigen Wörtern nur die Trennstellen, welche für die
Lang-s-Schreibung erheblich sind (s-s, s-p) kategorisiert. Ich habe noch
einmal ~140 Überträge mit "skripte/python/abgleich_sprachvarianten.py"
gemacht.
Ebenso sind die Sondertrennstellen ({…/…} und […/…]) für die Skripte eine
Herausforderung welche oft "händische" Nacharbeit erfordert.
Einträge wie "Acht--bar-=keit" habe ich in Acht-bar-keit gewandelt.
Möglich ist auch Acht--bar--keit, aber da keine Wortfuge vorhanden ist, ist
das gemischt Trennzeichen hier m.E. falsch.
===================================
Da der TeX-Algorithmus ja auch Wörter die nicht in der Musterquellliste
stehen richtig trennt, wäre es sicher einen Versuch wert, aus den
kategorisierten Einträgen einen "nur Wortfugen"-Mustersatz zu generieren
und anschließend diese Muster auf die unkategorisierten Einträge (alles
mit "·") anzuwenden. Eine Liste dieser Wörter mit markierten Trennfugen
könnte uns einen Riesenschritt voranbringen.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster