[Trennmuster] Wichtung von Woertern in Patgen (was: Woerter mit zwei und drei Buchstaben)

Stephan Hennig mailing_list at arcor.de
Mi Jul 30 18:22:54 CEST 2014


Am 24.07.2014 22:11, schrieb Guenter Milde:

> Ob diese dann in die patgen-Eingabe übernommen werden oder als 
> "hyphenlist" separat an den Trennalgorithmus ist eigentlich egal.
> Der Vorteil einer "hyphenlist" ist, daß die Ausnahmefälle der
> Abkürzungen (welche eben keiner Regel gehorchen) sich nicht auf die 
> Generalisierungen der patgen-Muster auswirken sondern nur für exakte 
> Übereinstimmung gelten.

Wie auch von Herbert bemerkt, sollten aus demselben Grund Abkürzungen
wie UNESCO in eine Ausnahmeliste statt in die Trennmuster. Alternativ
könnte man solchen "Wörter" in Patgen zumindest ein anderes (geringeres)
Gewicht geben:

  ...
  un-er-zwun-ge-ne
  4UNESCO
  1un-ethisch
  un-fä-hig
  ...

Das Gewicht 1 vor dem nachfolgenden Wort ist notwendig, da Wortgewichte
in der ersten Spalte nicht nur für ein Wort gelten, sondern für alle
folgenden Wörter bis zum nächsten Wortgewicht (oder man stellt gleich
allen Wörtern ein Gewicht voran). Vorgabe für alle Gewichte ist 1,
allerdings kann ich patgen.web nicht entnehmen, ob größere Zahlen ein
höheres Gewicht bedeuten oder ein geringeres. Weiß jemand dazu genaueres?

Kandidaten für geänderte Gewichte wären:

  * Abkürzungen,
  * Namen,
  * allgemein Wörter mit unterdrückten Trennstellen, wie:
      + mehrdeutige Wörter,
      + sinnentstellende und irreführende Wörter,
      + Wörter mit Dreikonsonantenregel,
  * eventuell knifflige Wörter (?),
  * ...

Für solche Experimente ist aber eine per Skript zu verarbeitende
Auszeichnung der entsprechenden Wörter in der Wortliste notwendig.

Die Hoffnung ist, dass sich durch Abwertung von Wörtern, die die
Strukturen der Wörter der deutschen Sprache brechen, in irgend einer
Form die Qualität der Muster verbessern ließe. In welcher Art genau,
dass ist die Frage. Denn: Wie lässt sich die Qualität von Mustersätzen
beschreiben? Welche Kennzahlen gibt es, anhand derer man zwei
Mustersätze miteinander vergleichen kann?

Als absolute Kenngrößen eines Mustersatzes fallen mir ein:

  * Dateigröße,
  * Musterzahl,
  * Anzahl aller Buchstaben des Mustersatzes,
  * die Verteilung der Längen der Muster eines Mustersatzes,
  * die Verteilung der Level des Mustersatzes.

Allerdings sagen diese so gut wie nichts über die Trennqualität eines
Mustersatzes aus. Besser wären schon

  * mittlere Anzahl der Muster, die auf ein Wort passen (plus
    Streuung). Diese Zahl hat in pdfTeX einen (geringen) Einfluss auf
    die Geschwindigkeit der Worttrennung, in LuaTeX jedoch keinen.
  * mittlere Anzahl der Wörter, die auf ein Muster passen (plus
    Streuung). Diese Zahl ist ein Maß für die Effektivität eines
    Musters bzw. Mustersatzes.

Diese Kenngrößen lassen sich wiederum nicht allein aus einem Mustersatz
ableiten, sondern hängen von einer zu trennenden Wortliste ab. Um
mehrere Mustersätze -- auch über die Zeit hinweg -- miteinander zu
vergleichen, müsste man eine konkrete Wortliste mit allen zu
vergleichenden Mustern trennen.

Hat jemand Ideen für andere Kenngrößen?

Hat jemand Zeit für ein paar Tests mit Gewichten in Patgen?

Viele Grüße,
Stephan Hennig



Mehr Informationen über die Mailingliste Trennmuster