[Trennmuster] Feld 8

Stephan Hennig sh-list at posteo.net
Mi Jan 14 21:01:31 CET 2015


Am 14.01.2015 um 11:52 schrieb Werner LEMBERG:
>>   dussligste;-2-;-3-;duss-ligs-te;-5-;duss-lig-ste;duss-ligs-te;-8-
>>
>> Nach meinem Verständnis müsste die Schreibung in Feld 8 hier
>> explizit angegeben werden.
> 
> Korrekt.  Im README wird's ja auch so beschrieben:
>
>   Leere Felder sind mit „-x-“ markiert („x“ ist die Feldnummer);
>   Felder 3 und 4 als auch Felder 6, 7 und 8 treten immer simultan auf,
>   um die Lesbarkeit zu erhöhen.

Das sagt aber bloß, dass Feld 8 angegeben werden muss.  Es kann jedoch
weiterhin leer sein wie beim Beispiel "Basssaite".


>> Unter den Datensätzen der Form
>>
>>   ux__xtr_        265
>>   ux_rxtr_        571
>>
>> finde ich mit einer lokalen Version etwa 500 Stück, bei denen Feld 8
>> ausgefüllt sein sollte.  Meinungen?
> 
> Bitte von Deinem Skript ausfüllen lassen :-)

Das Erkennen ist recht einfach, das automatische Korrigieren schon
schwieriger.  Die Trennung aus Feld 6 kann nämlich nicht verwendet
werden, weil ß dort als -ss oder ss- getrennt wird, in Feld 8 jedoch als
s-s getrennt werden muss.  Die Trennung aus Feld 7 kann nicht verwendet
werden, weil dort ck- und st-Trennungen mitunter nicht passen.

Aber ich arbeite daran.  Es gibt vier Fehler von Eszett-Schreibungen,
die ich gern automatisch korrigieren würde.

1. Existiert zu einem Datensatz, dessen Felder ein ß enthalten ein
Datensatz mit ss-Schreibung?  Diese Prüfung wurde schon seit längerem
durchgeführt.

2. Existiert zu jeder gültigen Rechtschreibung mit ß auch eine gültige
Rechtschreibung mit ss?  Im Unterschied zur Prüfung 1 werden hiermit
Datensätze erkannt, die zwar eine ss-Schreibung enthalten, jedoch nicht
für alle Rechtschreibungen, für die die ß-Schreibung gültig ist.  Diese
Prüfung habe ich unlängst hinzugefügt.  Sie war der Anlass der
löss-Diskussion.  Einige Korrekturen habe ich in 58363bc vorgenommen.

3. Kreuzprüfung von Feld 6 und 8: Sind die Voraussetzungen erfüllt, dass
die Felder 6 und 8 jeweils einzeln oder zugleich belegt sind?  Das
richtet sich danach, ob die Dreikonsonantenregel für das s anzuwenden
ist und läuft auf eine Suche nach "sss[aeiouäöü]" in Feld 1 hinaus
(Basssaite oder Bassstimme).  Wie bereits erwähnt gibt es etwa 500
solcher Falscheinträge.

4. Entspricht die Auszeichnung der ss-Schreibung einer Rechtschreibung
genau der Auszeichnung der zugehörigen ß-Schreibung?  Wenn ich mich
recht erinnere, ergibt das nochmal einen großen Schwung an Fehlern.
Meistens handelt es sich um zusammengesetzte Wörter, bei denen in der
einen Form = und == verwendet werden, bei der anderen Form jedoch nur =.
 Allerdings gibt es manchmal auch gute Gründe für eine Abweichung, zum
Beispiel Mas-se in der traditionellen Rechtschreibung trotz Ma-ße oder
Geschos-se trotz Gescho-ße.

Eine automatische Korrektur ist wünschenswert, da es sich mitunter um
eine ganze Menge Fehler handelt.  Das ganze ließe sich dann recht
einfach auch auf die Prüfung und Korrektur von sz-Schreibungen ausweiten.

Günter, ich habe hier noch eine Notiz, bei Fehlern der ss-Schreibung auf
das Skript python/sprachabgleich.py zu verweisen.  Kannst du kurz
klarstellen, ob und welche der beschriebenen Prüfungen das Python-Skript
durchführen kann?

Viele Grüße,
Stephan Hennig




Mehr Informationen über die Mailingliste Trennmuster