[Trennmuster] Wortlisten-Formate
Keno Wehr
wehr at abgol.de
Fr Okt 15 23:02:00 CEST 2021
Am 06.10.21 um 10:42 schrieb Werner LEMBERG:
> Wir könnten probeweise ein neues git-Repositorium aufsetzen, welches
> auf dem Kurzformat basiert – aber bitte mit einer zusätzlichen
> 1. Spalte, welche das Wort ungetrennt enthält. Ich könnte mir sogar
> vorstellen, daß man ein Skript schreibt, um möglichst viele Commits
> des jetztigen Repositoriums mitzunehmen, z.B. startend mit Einträgen
> von vor einem Jahr. Dann kann man sich die Repositorien anschauen und
> vergleichen, was mit den Einträgen geschieht.
Ich weiß nicht so recht, was du dir davon versprichst. Die
Konversionsskripte haben den Sinn, *denselben Wortbestand* in
kompakterer Form darzustellen.
In zum Langformat expandierter Form sollten die Einträge also immer die
gleichen sein, egal welches Format die Grundlage bildet.
Am 08.10.21 um 13:11 schrieb Guenter Milde:
>> Wir könnten probeweise ein neues git-Repositorium aufsetzen, welches
>> auf dem Kurzformat basiert – aber bitte mit einer zusätzlichen
>> 1. Spalte, welche das Wort ungetrennt enthält.
> Dann brauchen wir allerdings auch verschiedene Zeilen bei verschiedener
> Schreibung (daß/dass, Stofffetzen/Stoffetzen, ...).
Dafür sehe ich keine zwingende Notwendigkeit. Man könnte als Schlüssel
stets das erste Feld nehmen, das nicht ausgekreuzt ist, also z. B.
Außenmaße; Au-ßen=ma-ße;Au-ßen=ma-ße;Aus-sen=mas-se;Au-ssen=ma[-s/s-]se
Meßersatz;-1-;Meß=er<satz;-3-;Mes-ser=satz;Mes[-ser=/s=er<.]satz
Solche Fälle sind extrem selten.
Und natürlich dann auch:
dass;dass
Stofffetzen;Stoff=fet-zen
ohne separate Erwähnung von »daß« und »Stoffetzen«, da die AR-Formen
automatisch generierbar sind.
Wenn wir noch nicht mal solche Kürzungen nutzen, sehe ich in einem
Kurzformat wenig Sinn.
> Die Zusammenlegung der verschiedenen Schreibungen ist der aufwendigste
> Teil der Konvertierung (was sowohl die Komplexität als auch die Laufzeit
> des Skripts betrifft) aber spart nur 3,4% der Zeilen (502449 Zeilen in
> wortliste werden 485 385).
>
> Jedoch hilft sie beim Eintrag neuer Wörter, indem automatisch die
> AR-Variante und die CH Variante dazukommen.
Ja, für Neueinträge sollte das Kurzformat die erste Wahl sein. Die Frage
ist nur, ob dieses dauerhaft ein Hilfsformat bleiben soll (als solches
hat sich aus meiner Sicht schon sehr bewährt) oder ob wir es – in
weiterentwickelter Form – gleich zur Grundlage machen.
Gruß
Keno
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20211015/877fd03a/attachment.htm>
Mehr Informationen über die Mailingliste Trennmuster