[Trennmuster] Woerter mit zwei und drei Buchstaben

Guenter Milde milde at users.sf.net
Mo Jul 21 08:36:03 CEST 2014


On 21.07.14, Werner LEMBERG wrote:

> > Erstes Problem: Die Liste enthält zwar
> > 
> >   Bass;-2-;-3-;Bass;Bass
> >   sass;-2-;-3-;-4-;sass
> > 
> > nicht jedoch die Wörter 'Baß' (nur traditionelle Rechtschreibung)
> > und 'saß' (alle Rechtschreibungen).  'süß' und 'süss' fehlen übriges
> > beide.  Solche Wörter müssten ergänzt werden.  


> > Wörter mit weniger als vier Buchstaben sind auch für Lang-s-Muster
> > relevant, zum Beispiel bei 'es' und 'ist'.  Ebenso für Ligaturmuster.

Da in beiden Fällen nur die Frage nach Haupttrennstellen interessiert
aber im Deutschen für jegliche Trennung mindestens 4 Buchstaben benötigt
werden würde die Aufnahme dieser Wörter in die Trennliste keine
Zusatzinformation liefern: wir wissen schon, daß in keinem Wort mit weniger
als 4 Buchstaben eine Trennstelle ist und können dieses Wissen bei Lang-S-Schreibung
und Ligaturaufbruch nutzen:

Lang-S: 
  Für ein Lang-S Wörterbuch kann eine simple Wortliste mit <3-Wörtern
  (z.B. aus dem aspell-dump bzw. der Quellliste) mit s2long-s.py
  verarbeitet werden.

  Für Lang-S-Ersetzung über Trennmuster muß der Ersetzungs-Algorithmus
  das s am Wortende generell gesondert wandeln. Rund-S an erster Stelle
  kommt generell nicht vor (merke, das große S entspricht einem langem
  S). An zweiter Stelle kann Rund-S nur in Ausnahmen (Abkürzungen) oder
  längeren Wörtern vorkommen -- für Abkürzungen ist eine Ausnahmeliste zu
  erstellen.

Ligaturaufbruch
  findet in "normalen" kurzen (<3) Wörtern nicht statt. Nur in Abkürzungen,
  wobei da aber andere Regeln gelten:
  
  * "echtes Wort": keine Ligatur wenn Morphemgrenze=Trennstelle
    (bei uns [<>=]+). Algorithmusidee: Wort mit "major-Mustern" trennen und
    für "Ligaturkandidaten" (ff, fi, ...) einen "Aufbruchsmarker" einfügen,
    wenn im getrennten Wort f-f, f-i, ...) steht.
    
  * Abkürzungen: hier gelten spezielle Regeln, die sowieso in einer
    Ausnahmeliste erfaßt werden müßten. (Mir fällt gegenwärtig nur
    "Aufl." ein, was a) in der Liste ist und b) soweit ich weiß auch mit
    Ligatur gesetzt wird, d.h. der obig angedachte Algorithmus macht es
    schon richtig.


> Bafög ist schon drinnen...  Aber wieso »Fr.«, »Hdn.« und »usw.«?  Das
> betrifft weder Trennmuster noch etwaige Lang-S-Regeln.

Die Abkürzung "usw" ist für Lang-S-Schreibung relevant: Obige
Ersetzungsregeln machen es zufällig¹ richtig: es heißt uſw. (< und ſo
weiter) Aber in s2lang-s.py steht es in einer Ausnahmeliste, denn es gibt
keine generelle Regel welche aus dem String "usw" die korrekte Schreibung
ermitteln könnte.

¹ nicht ganz zufällig, da meist Anfangsbuchstaben für die Abkürzungsbildung
  verwendet werden und an den ersten beiden Stellen nur in 166 von 
  400.000 Wörtern ein Rund-S vorkommt.

Aber wie gesagt: bei Abkürzungen lassen sich Lang-S und Ligaturaufbruch
nicht aus den Trennstellen ableiten, ich sehe daher keinen Grund kurze
Abkürzungen in die Liste aufzunehmen.

Günter

  
  




Mehr Informationen über die Mailingliste Trennmuster