[Trennmuster] Woerter mit zwei und drei Buchstaben
Guenter Milde
milde at users.sf.net
Mo Jul 21 08:36:03 CEST 2014
On 21.07.14, Werner LEMBERG wrote:
> > Erstes Problem: Die Liste enthält zwar
> >
> > Bass;-2-;-3-;Bass;Bass
> > sass;-2-;-3-;-4-;sass
> >
> > nicht jedoch die Wörter 'Baß' (nur traditionelle Rechtschreibung)
> > und 'saß' (alle Rechtschreibungen). 'süß' und 'süss' fehlen übriges
> > beide. Solche Wörter müssten ergänzt werden.
> > Wörter mit weniger als vier Buchstaben sind auch für Lang-s-Muster
> > relevant, zum Beispiel bei 'es' und 'ist'. Ebenso für Ligaturmuster.
Da in beiden Fällen nur die Frage nach Haupttrennstellen interessiert
aber im Deutschen für jegliche Trennung mindestens 4 Buchstaben benötigt
werden würde die Aufnahme dieser Wörter in die Trennliste keine
Zusatzinformation liefern: wir wissen schon, daß in keinem Wort mit weniger
als 4 Buchstaben eine Trennstelle ist und können dieses Wissen bei Lang-S-Schreibung
und Ligaturaufbruch nutzen:
Lang-S:
Für ein Lang-S Wörterbuch kann eine simple Wortliste mit <3-Wörtern
(z.B. aus dem aspell-dump bzw. der Quellliste) mit s2long-s.py
verarbeitet werden.
Für Lang-S-Ersetzung über Trennmuster muß der Ersetzungs-Algorithmus
das s am Wortende generell gesondert wandeln. Rund-S an erster Stelle
kommt generell nicht vor (merke, das große S entspricht einem langem
S). An zweiter Stelle kann Rund-S nur in Ausnahmen (Abkürzungen) oder
längeren Wörtern vorkommen -- für Abkürzungen ist eine Ausnahmeliste zu
erstellen.
Ligaturaufbruch
findet in "normalen" kurzen (<3) Wörtern nicht statt. Nur in Abkürzungen,
wobei da aber andere Regeln gelten:
* "echtes Wort": keine Ligatur wenn Morphemgrenze=Trennstelle
(bei uns [<>=]+). Algorithmusidee: Wort mit "major-Mustern" trennen und
für "Ligaturkandidaten" (ff, fi, ...) einen "Aufbruchsmarker" einfügen,
wenn im getrennten Wort f-f, f-i, ...) steht.
* Abkürzungen: hier gelten spezielle Regeln, die sowieso in einer
Ausnahmeliste erfaßt werden müßten. (Mir fällt gegenwärtig nur
"Aufl." ein, was a) in der Liste ist und b) soweit ich weiß auch mit
Ligatur gesetzt wird, d.h. der obig angedachte Algorithmus macht es
schon richtig.
> Bafög ist schon drinnen... Aber wieso »Fr.«, »Hdn.« und »usw.«? Das
> betrifft weder Trennmuster noch etwaige Lang-S-Regeln.
Die Abkürzung "usw" ist für Lang-S-Schreibung relevant: Obige
Ersetzungsregeln machen es zufällig¹ richtig: es heißt uſw. (< und ſo
weiter) Aber in s2lang-s.py steht es in einer Ausnahmeliste, denn es gibt
keine generelle Regel welche aus dem String "usw" die korrekte Schreibung
ermitteln könnte.
¹ nicht ganz zufällig, da meist Anfangsbuchstaben für die Abkürzungsbildung
verwendet werden und an den ersten beiden Stellen nur in 166 von
400.000 Wörtern ein Rund-S vorkommt.
Aber wie gesagt: bei Abkürzungen lassen sich Lang-S und Ligaturaufbruch
nicht aus den Trennstellen ableiten, ich sehe daher keinen Grund kurze
Abkürzungen in die Liste aufzunehmen.
Günter
Mehr Informationen über die Mailingliste Trennmuster