[Trennmuster] patgen und Haupttrennstellen
Guenter Milde
milde at users.sf.net
Mo Sep 30 17:18:20 CEST 2013
Lieber Werner, liebe Trennmustler,
On 23.09.13, Werner LEMBERG wrote:
...
> > Ein großer Teil der Problemfälle entfiele aber auch, wenn die Regel
> >
> > Mindestabstand(«|», «=») = 3
> >
> > für "major" implementiert würde.
> Das geht leider nicht. So ist beispielsweise die Trennung
> un-
> benachteiligt
> die Beste.
Dann muß ich meine Regelvorschläge etwas genauer spezifizieren:
A. Algorithmus für die Entfernung "zu naher" Trennstellen
==========================================================
Bei der Erzeugung eines "Dictionary" mit nur einem Trennstellentyp für die
Generation von "patgen"-Mustern aus der "Wortliste" können folgende Regeln
nützlich sein:
1. Haupt-Trennstellen (=) haben in beiden Richtungen einen Mindestabstand
von 3 zu Trennstellen niedrigerer Kategorie.
Bsp: Aal=fi-scher -> Aal-fischer
Ab|bie-ge=pfeil -> Ab-biege-pfeil
da|zu=ge-ben -> dazu-geben
2. Bei zwei gleichwertigen Haupttrennstellen (=) mit Abstand 2 bleiben beide
erhalten.
Bsp: wie-der=zu=fin-den -> wie-der-zu-fin-den
3. Bei ungleichwertigen Haupttrennstellen mit Abstand 2 wird die
geringerwertige unterdrückt:
Bsp: all=zu==bald -> all-zu-bald
4. Präfix-Trennstellen (|) haben in beiden Richtungen einen Mindestabstand
von 3 zu Trennstellen niedrigerer Kategorie (normalen Trennstellen, -).
Bsp: ab|ar-bei-ten -> ab-arbei-ten
Ae-ro|no-mie -> Aero-nomie
5. Präfix-Trennstellen (|) haben untereinander ebenfalls einen
Mindestabstand von 3. Bei gleicher Wertigkeit gilt links vor rechts.
Bsp: ab|be|ru-fen -> ab-berufen
un|be|ab|sich-tigt -> un-beabsich-tigt (oder un-beab-sich-tigt)
un|=ge|recht=fer-tigt -> un-gerecht-fer-tigt
Regeln 4 und 5 werden vor Regeln 1-3 angewendet.
Bsp: zwi-schen=ge|la-gert -> zwi-schen=ge|lagert (Regel 4)
zwi-schen=ge|lagert -> zwi-schen-gelagert (Regel 1)
**nicht**
zwi-schen=ge|la-gert -> zwi-schen-gela-gert (Regel 1)
Die gleichen Regeln können für die Erzeugung von Pattern für "morphologische
Trennung" verwendet werden. Zusätzlich wären dann noch alle einfachen
Trennungen zu unterdrücken, dabei sollten ggf. die Trennungen vor
Wortbildungssuffixen (--) behalten werden.
Bsp: al-ler=ein--fach-ste -> aller-ein-fachste
> > Vieleicht müssen wir generell über die Einstufung der Präfixfugen
> > nachdenken (und gegebenenfalls die Kategorisierung anpassen),
> Ja, doch ist das wohl ein nächster Schritt, der noch etwas weiter in
> der Zukunft liegt.
Ich denke, daß wir inzwischen eine hinreichende Zahl kategorisierter
Einträge haben und somit ein Gefühl für die Auszeichung und ihre Anwendung
entwickeln können.
Bsp: Nach Regel 5 ist die Auszeichnung
hoch|||auf||ge|schos-sen
redundant und kann durch das deutlich einfachere
hoch|auf|ge|schos-sen
ersetzt werden.
Im Fall von
un|||be||ab|sich-tigt
könnte aber auch
un||be|ab|sich-tigt
stehen bleiben um die "Stärke" der Fuge nach un| deutlich zu machen.
Viele Grüße
Günter
----- End forwarded message -----
Mehr Informationen über die Mailingliste Trennmuster