[Trennmuster] Wortlisten-Formate

Keno Wehr wehr at abgol.de
Fr Okt 15 23:02:00 CEST 2021


Am 06.10.21 um 10:42 schrieb Werner LEMBERG:
> Wir könnten probeweise ein neues git-Repositorium aufsetzen, welches
> auf dem Kurzformat basiert – aber bitte mit einer zusätzlichen
> 1. Spalte, welche das Wort ungetrennt enthält.  Ich könnte mir sogar
> vorstellen, daß man ein Skript schreibt, um möglichst viele Commits
> des jetztigen Repositoriums mitzunehmen, z.B. startend mit Einträgen
> von vor einem Jahr.  Dann kann man sich die Repositorien anschauen und
> vergleichen, was mit den Einträgen geschieht.

Ich weiß nicht so recht, was du dir davon versprichst. Die 
Konversionsskripte haben den Sinn, *denselben Wortbestand* in 
kompakterer Form darzustellen.
In zum Langformat expandierter Form sollten die Einträge also immer die 
gleichen sein, egal welches Format die Grundlage bildet.


Am 08.10.21 um 13:11 schrieb Guenter Milde:
>> Wir könnten probeweise ein neues git-Repositorium aufsetzen, welches
>> auf dem Kurzformat basiert – aber bitte mit einer zusätzlichen
>> 1. Spalte, welche das Wort ungetrennt enthält.
> Dann brauchen wir allerdings auch verschiedene Zeilen bei verschiedener
> Schreibung (daß/dass, Stofffetzen/Stoffetzen, ...).

Dafür sehe ich keine zwingende Notwendigkeit. Man könnte als Schlüssel 
stets das erste Feld nehmen, das nicht ausgekreuzt ist, also z. B.

    Außenmaße; Au-ßen=ma-ße;Au-ßen=ma-ße;Aus-sen=mas-se;Au-ssen=ma[-s/s-]se
    Meßersatz;-1-;Meß=er<satz;-3-;Mes-ser=satz;Mes[-ser=/s=er<.]satz

Solche Fälle sind extrem selten.
Und natürlich dann auch:

    dass;dass
    Stofffetzen;Stoff=fet-zen

ohne separate Erwähnung von »daß« und »Stoffetzen«, da die AR-Formen 
automatisch generierbar sind.
Wenn wir noch nicht mal solche  Kürzungen nutzen, sehe ich in einem 
Kurzformat wenig Sinn.

> Die Zusammenlegung der verschiedenen Schreibungen ist der aufwendigste
> Teil der Konvertierung (was sowohl die Komplexität als auch die Laufzeit
> des Skripts betrifft) aber spart nur 3,4% der Zeilen (502449 Zeilen in
> wortliste werden 485 385).
>
> Jedoch hilft sie beim Eintrag neuer Wörter, indem automatisch die
> AR-Variante und die CH Variante dazukommen.

Ja, für Neueinträge sollte das Kurzformat die erste Wahl sein. Die Frage 
ist nur, ob dieses dauerhaft ein Hilfsformat bleiben soll (als solches 
hat sich aus meiner Sicht schon sehr bewährt) oder ob wir es – in 
weiterentwickelter Form – gleich zur Grundlage machen.

Gruß
Keno
-------------- nächster Teil --------------
Ein Dateianhang mit HTML-Daten wurde abgetrennt...
URL: <https://listi.jpberlin.de/pipermail/trennmuster/attachments/20211015/877fd03a/attachment.htm>


Mehr Informationen über die Mailingliste Trennmuster