[Trennmuster] Wichtung von Woertern in Patgen (was: Woerter mit zwei und drei Buchstaben)
Guenter Milde
milde at users.sf.net
Do Jul 31 14:14:35 CEST 2014
On 30.07.14, Stephan Hennig wrote:
> Am 24.07.2014 22:11, schrieb Guenter Milde:
> > Ob diese dann in die patgen-Eingabe übernommen werden oder als
> > "hyphenlist" separat an den Trennalgorithmus ist eigentlich egal.
> > Der Vorteil einer "hyphenlist" ist, daß die Ausnahmefälle der
> > Abkürzungen (welche eben keiner Regel gehorchen) sich nicht auf die
> > Generalisierungen der patgen-Muster auswirken sondern nur für exakte
> > Übereinstimmung gelten.
> Wie auch von Herbert bemerkt, sollten aus demselben Grund Abkürzungen
> wie UNESCO in eine Ausnahmeliste statt in die Trennmuster. Alternativ
> könnte man solchen "Wörter" in Patgen zumindest ein anderes (geringeres)
> Gewicht geben:
> ...
> un-er-zwun-ge-ne
> 4UNESCO
> 1un-ethisch
> un-fä-hig
> ...
> Das Gewicht 1 vor dem nachfolgenden Wort ist notwendig, da Wortgewichte
> in der ersten Spalte nicht nur für ein Wort gelten, sondern für alle
> folgenden Wörter bis zum nächsten Wortgewicht (oder man stellt gleich
> allen Wörtern ein Gewicht voran).
> Vorgabe für alle Gewichte ist 1, allerdings kann ich patgen.web nicht
> entnehmen, ob größere Zahlen ein höheres Gewicht bedeuten oder ein
> geringeres. Weiß jemand dazu genaueres?
Ich würde Wichten gegenüber einer Ausnahmeliste bevorzugen.
> Kandidaten für geänderte Gewichte wären:
> * Abkürzungen,
> * Namen,
> * allgemein Wörter mit unterdrückten Trennstellen, wie:
> + mehrdeutige Wörter,
> + sinnentstellende und irreführende Wörter,
> + Wörter mit Dreikonsonantenregel,
> * eventuell knifflige Wörter (?),
> * ...
> Für solche Experimente ist aber eine per Skript zu verarbeitende
> Auszeichnung der entsprechenden Wörter in der Wortliste notwendig.
Für eine erste Approximation reicht wahrscheinlich sogar schon ein Test
auf Vorhandensein eines Kommentars aus: Im Allgemeinen weist ein
Kommentar (i.e. Erklärungsbedarf) auf eine Abweichung von der Regel hin.
Schlüsselwörter in den Kommentaren sind "Name", "geogr." und die diversen
Abkürzungen für die Sprachen. Die Kommentierung (bisher ca. 500
Kommentare) müßte noch angeglichen und erweitert werden.
> Die Hoffnung ist, dass sich durch Abwertung von Wörtern, die die
> Strukturen der Wörter der deutschen Sprache brechen, in irgend einer
> Form die Qualität der Muster verbessern ließe. In welcher Art genau,
> dass ist die Frage. Denn: Wie lässt sich die Qualität von Mustersätzen
> beschreiben?
=====================================================================
Die im Endeffekt wichtigste Eigenschaft ist die korrekte Trennung von
möglichst vielen in der Liste nicht erfaßten Wörtern und Verbindungen!
=====================================================================
Wie man diese Größe messen kann ist mir (abgesehen von Tests mit einem
umfangreicheren Korpus als unserer Trennliste) leider nicht bekannt.
Viele Grüße
Günter
Mehr Informationen über die Mailingliste Trennmuster