[Trennmuster] Präfixe
Keno Wehr
wehr at abgol.de
Sa Apr 18 18:16:12 CEST 2020
> Sollen Wörter wie »Extraklasse« wirklich als
>
> Ex-tra<klas-se
>
> in der Liste aufscheinen? Sollte es in diesem Fall nicht eher
>
> Ex-tra=klas-se
>
> sein?
Da fällt mir noch ein älteres Projekt ein, mit dem man diese
Problemklasse umfassender angehen könnte:
Am 19.04.18 um 22:48 schrieb Keno Wehr:
> Die Listen bieten mittels geeigneter Skripte mehrere Möglichkeiten zur
> Fehlererkennung in vorhandenen und künftigen Wortlisteneinträgen.
>
> 1. Für in der Wortliste mit < gekennzeichnete Wortbestandteile kann
> geprüft werden, ob diese in einer der Listen vorkommen.
>
> Dies wird mit der aktuellen Wortliste etliche Treffer liefern, da ich
> einige fragwürdige Präfixe entfernt habe. Zum Beispiel hat das „Abo“
> einen gänzlich anderen Charakter als „Demo“ oder „Chrono“, da es auch
> als zweiter Bestandteil vorkommt: „Zeitschriftenabo“.
> Bei solchen Treffern sollte die Trennstelle anders kategorisiert
> werden (beim „Abo“ mit =; in anderen Fällen scheint auch - angezeigt).
> Falls der vorhandene Eintrag als korrekt erachtet wird, sollten die
> Präfixlisten erweitert werden, die keinen Anspruch auf Vollständigkeit
> erheben können.
>
> Mit dieser Prüfung können auch Präfixe mit fehlerhafter Trennung
> entdeckt werden wie „af-ro“ (Trennung regelwidrig) oder „makro“
> (Trennung fehlt).
>
> Auch lustige Versehen wie der „Metereo<loge“ (sic!) kommen auf diese
> Weise zum Vorschein – der wäre ein Fall für die Nichtwortliste.
>
> 2. Für Präfixe, die selbst ein Präfix enthalten, kann geprüft werden,
> ob die „Klammerung“ im Sinne einer korrekten Darstellung der
> Bindungsverhältnisse in der Wortliste korrekt ist.
>
> Beispielsweise ist aufgrund der Rechtsassoziativität von < der Eintrag
> „Inter<fero<meter“ falsch. Es müsste „Inter<fero<=meter“ (Messgerät,
> das auf Interferenz beruht) heißen. Da die Listen „fero“ nicht
> enthalten, wohl aber „inter<fero“, können diese und einige
> vergleichbare Fehler automatisiert erkannt werden.
>
> 3. Es kann geprüft werden, ob es Wörter gibt, die Präfixe enthalten,
> die nicht als solche markiert sind.
>
> Hier ist natürlich eine manuelle Entscheidung des Einzelfalls
> unumgänglich. Nicht jedes Wort, das mit „in“ beginnt, enthält auch das
> Präfix „in“. Während der Eintrag „auto=assoziativ“ falsch ist, ist
> „Auto=bahn“ richtig, da „Auto“ im zweiten Fall ein Kurzwort ist. Die
> Kommentare in den Listen weisen auf gleichlautende Kurzwörter hin, bei
> denen dann die Markierung mit = statt < erfolgen sollte, was natürlich
> nicht automatisiert möglich ist.
>
> 4. Es lässt sich prüfen, ob es Präfixe gibt, die in der Wortliste
> nirgends vorkommen.
>
> Bei Treffern muss im Einzelfall überlegt werden, wie zu verfahren ist.
> Ich habe das kürzlich erwähnte Präfix „deutero“ ergänzt; in der
> Wortliste kommt das bisher nicht vor. Daher würde ich „Deuteronomium“
> und „deuterokanonisch“ ergänzen. In anderen Fällen können so
> vielleicht unnötige Präfixe gelöscht oder orthographisch korrigiert
> werden.
>
> 5. Man könnte – weitgehend manuell – nach Kurzwörtern suchen, die in
> der Wortliste fälschlich als Präfixe kategorisiert sind.
>
> Solche Kategorisierungsfehler können nicht automatisch erkannt werden,
> wenn das Kurzwort in gleicher Schreibung auch als Präfix existiert.
> Beispielsweise ist in der Wortliste die „Demoseite“ falsch
> kategorisiert ist, „Demo“ hier das Kurzwort für Demonstration ist und
> nicht der griechische Wortteil für „Volk“. Evtl. könnte es nützlich
> sein, dafür eine zusätzliche Liste von Präfixen anzulegen, die auch
> als Kurzwörter vorkommen. Bisher finden sich Hinweise dazu nur in den
> Kommentaren der Präfixlisten.
>
> 6. Schließlich wäre es möglich, mit geeigneten Heuristiken nach
> Präfixen zu suchen, die bisher weder in der Wortliste, noch in den
> Präfixlisten berücksichtigt sind.
>
> Beispielsweise haben viele Präfixe, die auf einen Vokal enden, eine
> Nebenform ohne Vokal vor Vokalen. Möglicherweise wurden die noch nicht
> alle erfasst. Ob derartige Versuche erfolgversprechend sind, weiß ich
> allerdings nicht.
>
>
> Für 1 bis 6 gilt, dass ich entsprechende Skripte noch nicht entwickelt
> habe. Ich vermute, dass ihr mit eurem Knowhow und auf der Grundlage
> des schon vorhandenen Bestands dies schneller könnt.
Mehr Informationen über die Mailingliste Trennmuster