[Trennmuster] patgen und Haupttrennstellen

Guenter Milde milde at users.sf.net
Mo Sep 30 17:18:20 CEST 2013


Lieber Werner, liebe Trennmustler,

On 23.09.13, Werner LEMBERG wrote:

...

> > Ein großer Teil der Problemfälle entfiele aber auch, wenn die Regel
> >
> >   Mindestabstand(«|», «=») = 3
> >
> > für "major" implementiert würde.

> Das geht leider nicht.  So ist beispielsweise die Trennung

>   un-
>   benachteiligt

> die Beste.

Dann muß ich meine Regelvorschläge etwas genauer spezifizieren:

A. Algorithmus für die Entfernung "zu naher" Trennstellen
==========================================================

Bei der Erzeugung eines "Dictionary" mit nur einem Trennstellentyp für die
Generation von "patgen"-Mustern aus der "Wortliste" können folgende Regeln
nützlich sein:

1. Haupt-Trennstellen (=) haben in beiden Richtungen einen Mindestabstand
   von 3 zu Trennstellen niedrigerer Kategorie.

   Bsp:  Aal=fi-scher        -> Aal-fischer
	 Ab|bie-ge=pfeil     -> Ab-biege-pfeil
         da|zu=ge-ben	     -> dazu-geben

2. Bei zwei gleichwertigen Haupttrennstellen (=) mit Abstand 2 bleiben beide
   erhalten.

   Bsp:  wie-der=zu=fin-den  -> wie-der-zu-fin-den

3. Bei ungleichwertigen Haupttrennstellen mit Abstand 2 wird die
   geringerwertige unterdrückt:

   Bsp:  all=zu==bald        -> all-zu-bald

4. Präfix-Trennstellen (|) haben in beiden Richtungen einen Mindestabstand
   von 3 zu Trennstellen niedrigerer Kategorie (normalen Trennstellen, -).

   Bsp:  ab|ar-bei-ten       -> ab-arbei-ten
   	 Ae-ro|no-mie	     -> Aero-nomie

5. Präfix-Trennstellen (|) haben untereinander ebenfalls einen
   Mindestabstand von 3. Bei gleicher Wertigkeit gilt links vor rechts.

   Bsp:  ab|be|ru-fen          -> ab-berufen
   	 un|be|ab|sich-tigt    -> un-beabsich-tigt (oder un-beab-sich-tigt)
	 un|=ge|recht=fer-tigt -> un-gerecht-fer-tigt

Regeln 4 und 5 werden vor Regeln 1-3 angewendet.

   Bsp:  zwi-schen=ge|la-gert      -> zwi-schen=ge|lagert  (Regel 4)
         zwi-schen=ge|lagert	   -> zwi-schen-gelagert   (Regel 1)
	 
         **nicht**

         zwi-schen=ge|la-gert      -> zwi-schen-gela-gert  (Regel 1)


Die gleichen Regeln können für die Erzeugung von Pattern für "morphologische
Trennung" verwendet werden. Zusätzlich wären dann noch alle einfachen
Trennungen zu unterdrücken, dabei sollten ggf. die Trennungen vor
Wortbildungssuffixen (--) behalten werden.

   Bsp:  al-ler=ein--fach-ste   -> aller-ein-fachste


> > Vieleicht müssen wir generell über die Einstufung der Präfixfugen
> > nachdenken (und gegebenenfalls die Kategorisierung anpassen),

> Ja, doch ist das wohl ein nächster Schritt, der noch etwas weiter in
> der Zukunft liegt.

Ich denke, daß wir inzwischen eine hinreichende Zahl kategorisierter
Einträge haben und somit ein Gefühl für die Auszeichung und ihre Anwendung
entwickeln können. 

Bsp:  Nach Regel 5 ist die Auszeichnung 

        hoch|||auf||ge|schos-sen
	
      redundant und kann durch das deutlich einfachere
      
        hoch|auf|ge|schos-sen

      ersetzt werden.
      
      Im Fall von 
      
        un|||be||ab|sich-tigt
	
      könnte aber auch
      
        un||be|ab|sich-tigt
	
      stehen bleiben um die "Stärke" der Fuge nach un| deutlich zu machen.
      

Viele Grüße

Günter




----- End forwarded message -----



Mehr Informationen über die Mailingliste Trennmuster