[Trennmuster] Feld 8
Stephan Hennig
sh-list at posteo.net
Mi Jan 14 21:01:31 CET 2015
Am 14.01.2015 um 11:52 schrieb Werner LEMBERG:
>> dussligste;-2-;-3-;duss-ligs-te;-5-;duss-lig-ste;duss-ligs-te;-8-
>>
>> Nach meinem Verständnis müsste die Schreibung in Feld 8 hier
>> explizit angegeben werden.
>
> Korrekt. Im README wird's ja auch so beschrieben:
>
> Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer);
> Felder 3 und 4 als auch Felder 6, 7 und 8 treten immer simultan auf,
> um die Lesbarkeit zu erhöhen.
Das sagt aber bloß, dass Feld 8 angegeben werden muss. Es kann jedoch
weiterhin leer sein wie beim Beispiel "Basssaite".
>> Unter den Datensätzen der Form
>>
>> ux__xtr_ 265
>> ux_rxtr_ 571
>>
>> finde ich mit einer lokalen Version etwa 500 Stück, bei denen Feld 8
>> ausgefüllt sein sollte. Meinungen?
>
> Bitte von Deinem Skript ausfüllen lassen :-)
Das Erkennen ist recht einfach, das automatische Korrigieren schon
schwieriger. Die Trennung aus Feld 6 kann nämlich nicht verwendet
werden, weil ß dort als -ss oder ss- getrennt wird, in Feld 8 jedoch als
s-s getrennt werden muss. Die Trennung aus Feld 7 kann nicht verwendet
werden, weil dort ck- und st-Trennungen mitunter nicht passen.
Aber ich arbeite daran. Es gibt vier Fehler von Eszett-Schreibungen,
die ich gern automatisch korrigieren würde.
1. Existiert zu einem Datensatz, dessen Felder ein ß enthalten ein
Datensatz mit ss-Schreibung? Diese Prüfung wurde schon seit längerem
durchgeführt.
2. Existiert zu jeder gültigen Rechtschreibung mit ß auch eine gültige
Rechtschreibung mit ss? Im Unterschied zur Prüfung 1 werden hiermit
Datensätze erkannt, die zwar eine ss-Schreibung enthalten, jedoch nicht
für alle Rechtschreibungen, für die die ß-Schreibung gültig ist. Diese
Prüfung habe ich unlängst hinzugefügt. Sie war der Anlass der
löss-Diskussion. Einige Korrekturen habe ich in 58363bc vorgenommen.
3. Kreuzprüfung von Feld 6 und 8: Sind die Voraussetzungen erfüllt, dass
die Felder 6 und 8 jeweils einzeln oder zugleich belegt sind? Das
richtet sich danach, ob die Dreikonsonantenregel für das s anzuwenden
ist und läuft auf eine Suche nach "sss[aeiouäöü]" in Feld 1 hinaus
(Basssaite oder Bassstimme). Wie bereits erwähnt gibt es etwa 500
solcher Falscheinträge.
4. Entspricht die Auszeichnung der ss-Schreibung einer Rechtschreibung
genau der Auszeichnung der zugehörigen ß-Schreibung? Wenn ich mich
recht erinnere, ergibt das nochmal einen großen Schwung an Fehlern.
Meistens handelt es sich um zusammengesetzte Wörter, bei denen in der
einen Form = und == verwendet werden, bei der anderen Form jedoch nur =.
Allerdings gibt es manchmal auch gute Gründe für eine Abweichung, zum
Beispiel Mas-se in der traditionellen Rechtschreibung trotz Ma-ße oder
Geschos-se trotz Gescho-ße.
Eine automatische Korrektur ist wünschenswert, da es sich mitunter um
eine ganze Menge Fehler handelt. Das ganze ließe sich dann recht
einfach auch auf die Prüfung und Korrektur von sz-Schreibungen ausweiten.
Günter, ich habe hier noch eine Notiz, bei Fehlern der ss-Schreibung auf
das Skript python/sprachabgleich.py zu verweisen. Kannst du kurz
klarstellen, ob und welche der beschriebenen Prüfungen das Python-Skript
durchführen kann?
Viele Grüße,
Stephan Hennig
Mehr Informationen über die Mailingliste Trennmuster