[Trennmuster] neuer Arbeitsansatz

Werner LEMBERG wl at gnu.org
Fr Okt 28 13:23:12 CEST 2016


> In den Ergebnissen der Verarbeitung mit "abgleich_neueinträge"
> fallen mir sofort 4 auf:
>
>   Anästhesiecreme;An<äs-the-sie=creme
>   Anästhesiemethode;An<äs-the-sie=me-tho-de
>   Anästhesienetz;An<äs-the-sie=netz

Die Einträge sind korrekt, soweit ich das sehen kann.  Wir haben
»s-t« bei NR *und* AR, daher muß es in die »ausnahmen«-Datei.

>   Anästhesiologe;-2-;An<ä-sthe-sio>lo-ge;An<äs-the-sio>lo-ge

Das ist falsch :-)

  Anästhesiologe;An<äs-the-sio>lo-ge

> Ich denke, für die Qualität der Liste ist es wichtig, hier einen
> automatischen Test auf identische Rekonstruktion einzubauen.

Dafür hätte ich gerne Deine Helferlein :-)

> Vorschlag: (zusammenwachsen lassen, was zusammen gehört)
>
>   oder b) auch noch Weglassen des ersten Feldes:
>
>       Bedeutung der Felder:
>     - 1 Wort ungetrennt
>     - 2 Wort mit Trennungen, falls für alle Varianten identisch,
>     + 1 Wort mit Trennungen, falls für alle Varianten rekonstruierbar,
>         anderenfalls leer
>     ... (alle anderen Felder rücken nach).
>
> bei b) zeigt ein ";" in der Zeile an, daß eine Ausnahme vorliegt.

Gute Idee, das gefällt mir!  In dem Zusammenhang würde ich auch die
Datei »a.reformiert« einfach in »a« umbenennen, etc.  Somit würden
obige Zeilen wie folgt eingetragen.

  ...
  ana<sta-ti-sches
  -1-;An<äs-the-sie=creme;An<äs-the-sie=creme
  -1-;An<äs-the-sie=me-tho-de;An<äs-the-sie=me-tho-de
  -1-;An<äs-the-sie=netz;An<äs-the-sie=netz
  -1-;An<äs-the-sio>lo-ge;An<äs-the-sio>lo-ge
  Ana-tol
  ...

>> > Wie sieht die Chance auf eine bidirektionale Umwandlung dieser
>> > beiden Formate (round trip) hinzubekommen?
>
>> Das ist leider nicht möglich.  Die Ausnahmen, die in der
>> »wortliste«-Datei enthalten sind, kann man nur durch manuelle
>> Analyse extrahieren (das hat mich einige Zeit gekostet).
>
> Vorschlag für eine Algorithmus "Wortliste original" -> "Wortlisten"
>
> Für jeden Eintrag:
>
>   1. Auswahl der Sprachvariante de-1996 (2. oder 4. Spalte)
>
>   2. Versuchsweises Rücktransformieren
>
>   3. Vergleich mit Ausgangseintrag:
>
>      Gleich:    regelkonform: "Kurzeintrag" ausgeben
>      Ungleich:  Ausnahme: "Langform" ausgeben
>
> Selbst wenn das evt. für die gesamtliste nicht zuverlässig ginge,
> könnten so z.B. Diffs der Wortliste in das neue Format übertragen
> werden.

Das versteh' ich jetzt nicht wirklich.  Bitte gib' ein Beispiel.


    Werner




Mehr Informationen über die Mailingliste Trennmuster