[Trennmuster] Vorsilben

Werner LEMBERG wl at gnu.org
Do Feb 9 06:54:24 CET 2012


> ich habe jetzt die Ergebnisse eines ersten Testlaufs eines
> Algorithmus zur Vorsilbenauszeichnung zunächst nur für die Silbe
> "aus":

Sehr schön!  Ich bitte Dich aber, daß Du Dich auf den Nebenzweig
konzentrierst, denn im Hauptzweig habe ich praktisch keinerlei
Komposita-Korrekturen angebracht, sondern nur Fehlwörter und
Tippfehler beseitigt.

Ich kann mich jetzt übrigens erinnern, warum ich `=' in zweisilbigen
Wörtern entfernt habe.  Folgendes Beispiel:

  Aus=bau
  aus-bau=fä-hig

Liangs Algorithmus ist ja musterbasiert.  Wenn wir jetzt Muster
ausschließlich für Komposita basteln, widerspricht der erste Eintrag
dem zweiten und bedingt daher eine viel längere Musterlänge.  Außer
für die Handhabung von »ſ» benötigt man ja »=« wirklich nicht in
zweisilbigen Wörtern, und ich habe damals zugegebenermaßen nicht daran
gedacht.

Ein Lösung ist wohl, obigen Eintrag in

  aus=bau|fä-hig

zu konvertieren.  Noch lieber wäre mir allerdings, wenn wir
tatsächlich »ſ« in der Liste verwenden oder eine spezielle Markierung
einführen, die »s« und »ſ« voneinander unterscheiden, wo es notwendig
ist.  Am einfachsten wäre es, einen Großbuchstaben (mitten im Wort) zu
verwenden, um ein Rund-s zu forcieren:

  auS-bau=fä-hig

Allerdings ist das fehleranfällig und/oder leicht zu übersehen...
Vielleicht mit einem Kommentar?

  auS-bau=fä-hig # S

Naja.  Das echte »ſ« ist mir immer noch am liebsten.

> Eine Sichtkontrolle der "unsicheren Kandidaten" ergab, daß nur
> "Altaussee" ein unklarer Fall ist (die vorgegebene Wortfuge in
> Alt=aus-see erscheint mir fraglich).

Die Gewichtung ist korrekt.  Es gibt gleich in der Nähe die Ortschaft
Bad Aussee, und Altaussee liegt am Ausseer See.  Übrigens traumhaft
schön dort :-)

>   Vorschlag: Aufnahme von Groß/Klein Varianten, wenn es einen
>   Bedeutungsunterschied gibt, z.B.

Eher nicht.  Ich bin da der gleichen Meinung wie Stephan.

> * In einigen Fällen wurde mit regexp-replace ein Teil
>   zusammengesetzter Wörter gewichtet, z.B.
>   
>      aus·drucks·  --> aus-drucks=
>      
>   in 24 Wörtern, ohne Aufwand in die manuelle Wichtung des
>   Restbestandteils zu stecken.
>   
>   Noch scheint es in der Wortliste keine Fälle von nur teilweise
>   gewichteten Trennstellen in einem Wort zu geben.
>
>   Sind solche "teilgewichteten" Einträge akzeptabel?

Gute Frage.  Um den Arbeitsaufwand gering zu halten, habe ich Wörter
mit »·« nie auf gewichtete Trennstellen hin bearbeitet.  Meine Idee
war ja, all diese Einträge in einem Rutsch mit Komposita-Trennstellen
zu konvertieren.

> * Was bedeuten die Wörter "aus|bau=ei-gen" und "aus|bau=lo-kal"?
>   Gibt es die wirklich oder sind das Fehleinträge?

Fehleinträge.

Danke für Deine Bemühungen.


    Werner


Mehr Informationen über die Mailingliste Trennmuster