[Trennmuster] Experimente (was: Tor-fabbau)

Stephan Hennig sh-list at posteo.net
So Okt 2 14:37:34 CEST 2016


Am 01.10.2016 um 08:10 schrieb Werner LEMBERG:

>> Wäre es denn nun doch sinnvoll eine möglichst komplette Liste an
>> Wörtern anzulegen, also auch die nicht so häufigen anzufügen oder
>> würdest du das eher als schädlich ansehen?
> 
> Wir haben *null* Beweise, daß unterdrückte Trennstellen u.ä. für eine
> schlechtere Trennung von nicht enthaltenen Wörtern verantwortlich ist.
> Wie in einer anderen E-Mail erwähnt, wäre das ein gutes
> Dissertationsthema, das mit sehr viel Forschung verbunden ist.
> Derzeit *vermuten* wir das bloß.

Diese Fragestellung ist der aus dem Parallelthread "Gla-cischaus-see"
ähnlich, ob reduzierte Werte für \left- und \righthyphenmin Fehler bei
der Trennung von Komposita verhindern können.[1]  Momentan sind zwischen
dem letzten Tag "dehyph-exptl-v0.40" und master etwa 20.000 neue Wörter
hinzugekommen.  Diese Wörter könnten als Testkorpus verwendet werden.
Angehängt ist ein kurzer Entwurf für entsprechende Experimente.[2]  Es
wäre sinnvoll, solche Experimente möglichst automatisiert zu fahren, so
dass lediglich ein Skript aufgeführt werden muss.

Viele Grüße,
Stephan Hennig


[1] Erste Erkenntnis, left- und righthyphenmin können in patgen
lediglich auf 1 verringert werden.  Das heißt, das so lediglich
zusätzliche Muster erzeugt werden können, die Trennungen im Abstand von
einem Buchstaben vom Wortende verhindern.  Das könnte bereits helfen,
falsche Trennungen in Komposita zu vermeiden.  Könnte man left- und
righthyphenmin auf Null verringern, so könnte man zusätzlich in allen
(einfachen) Wörtern eine künstliche Trennung am Wortende einfügen und
prüfen, ob so Muster erzeugt werden, die Haupttrennstellen besser
identifizieren.  Letzteres geht mit patgen momentan aber nicht.

[2]

# Experimente zu Trennmustern

## Einfluss unterdrückter Trennungen auf die Trennung unbekannter Wörter

Frage: Verschlechtern aus stilistischen Gründen unterdrückte Trennungen
die Trennqualität nicht in der Wortliste aufgeführter Wörter?

Zur Vermeidung von Verzerrungen sollten die zu vergleichenden
Mustersätze folgendermaßen gebaut werden:

* neueste Änderungen der Trennung werden eingearbeitet
* neueste entfernte Wörter werden entfernt


### Mustersatz 1

* Tag `dehyph-exptl-v0.40`, mod.
* mit unterdrückten Trennungen


### Mustersatz 2

* Tag `dehyph-exptl-v0.40`, mod.
* ohne unterdrückten Trennungen


### Testkorpus

* alle neuen Wörter seit Tag `dehyph-exptl-v0.40`



## Einfluss von `\left/righthyphenmin` während der Mustererstellung

Frage: Trennen Muster mit `\left/righthyphenmin=1` unbekannte Komposita
besser als mit `\left/righthyphenmin=2`?

Zur Vermeidung von Verzerrungen sollten die zu vergleichenden
Mustersätze folgendermaßen gebaut werden:

* keine unterdrückten Trennstellen
* neueste Änderungen der Trennung werden eingearbeitet
* neueste entfernte Wörter werden entfernt


### Mustersatz 1

* Tag `dehyph-exptl-v0.40`, mod.
* left/right = 2


### Mustersatz 2

* Tag `dehyph-exptl-v0.40`, mod.
* left/right = 1


### Testkorpus

* alle neuen Wörter seit Tag `dehyph-exptl-v0.40`
* eventuell nur Komposita (mit `=`) berücksichtigen






Mehr Informationen über die Mailingliste Trennmuster