[Trennmuster] Datenstruktur

Georg Pfeiffer gp at praetor.de
Di Apr 1 21:07:54 CEST 2014


Hallo,

ich habe ja schon ein paarmal über die Datenstruktur gemeckert. Zu
zahllosen Stämmen gibt es

          ~>lich
          ~>li-che
          ~>li-chem
          ~>li-chen
          ~>li-cher
          ~>li-ches

          ~>li-che-re
          ~>li-che-rem
          ~>li-che-ren
          ~>li-che-rer
          ~>li-che-res

          ~>li-ch-ste
          ~>li-ch-stem
          ~>li-ch-sten
          ~>li-ch-ster
          ~>li-ch-stes

Wahrscheinlich habe ich noch ein paar mögliche Konstruktionen
übersehen. Das ganze Prozedere wiederholt sich dann noch mit jeder
möglichen Vorsilbe un~, anti~, gegen~, über~, unter~, hyper~, sub~,
super~, quasi~, proto~, krypro~ … und natürlich mit jedem möglichen
Kompositum. Irgenwann läßt sich das nicht mehr sinnvoll pflegen.

Günter hat ja mit seinen Analyse-Tools im Verzeichnis skripte/python
schon verschiedene Zerlegungen in Teilwörter und Wortteile
vorgenommen. Meine Frage ist nun, ob wir das nicht ausbauen und dann
patgen oder irgendeinen anderen (vielleicht noch zu entwicklenden)
Mustergenerator mit diesen Teilwort- (bzw. Wortteil-) Daten füttern
können. 

Es läuft wohl auf ein neues sisisi hinaus. Herbert hatte schon in der
Mail vom 29.11.2013 18:00 [1] angemerkt:

     »SiSiSi als Idee ist geradezu prädestiniert für das, was ihr macht:
      Eine Liste zu erstellen mit gewichteten Trennungen. Dagegen ist
      die Anwendung von patgen irgendwann nicht mehr sinnvoll.«

[1] https://lists.dante.de/pipermail/trennmuster/2013/001266.html

Eine Liste brauchten wir natürlich weiterhin zu Entwicklung und
Überprüfung der Teilwortdaten, aber sie brauchte nicht mehr *jede
mögliche* grammatikalische Bildung enthalten. Wahrscheinlich treten
einige Überraschungen und „unkonventionelle“ Wortbildungen auf, aber der
Datenbestand wäre überschaubarer und besser zu pflegen.

Was meint Ihr?
Georg




Mehr Informationen über die Mailingliste Trennmuster