[Trennmuster] Feld 8
Guenter Milde
milde at users.sf.net
Fr Jan 16 22:10:09 CET 2015
On 14.01.15, Stephan Hennig wrote:
...
> Günter, ich habe hier noch eine Notiz, bei Fehlern der ss-Schreibung auf
> das Skript python/sprachabgleich.py zu verweisen. Kannst du kurz
> klarstellen, ob und welche der beschriebenen Prüfungen das Python-Skript
> durchführen kann?
Der aktuelle Name ist "skripte/python/abgleich_sprachvarianten".
Primär ist das Skript zum Übertragen von kategorisierten Trennstellen. Es
wurde dann um eine ß/SS Prüfung/Ergänzung erweitert.
Aufruf
#> cd skripte/python/
#> python abgleich_sprachvarianten.py
...
> Es gibt vier Fehler von Eszett-Schreibungen,
> die ich gern automatisch korrigieren würde.
> 1. Existiert zu einem Datensatz, dessen Felder ein ß enthalten ein
> Datensatz mit ss-Schreibung? Diese Prüfung wurde schon seit längerem
> durchgeführt.
Dies Prüfung des Schlüssels (Spalte 1) macht auch
"abgleich_sprachvarianten.py".
> 2. Existiert zu jeder gültigen Rechtschreibung mit ß auch eine gültige
> Rechtschreibung mit ss? Im Unterschied zur Prüfung 1 werden hiermit
> Datensätze erkannt, die zwar eine ss-Schreibung enthalten, jedoch nicht
> für alle Rechtschreibungen, für die die ß-Schreibung gültig ist. Diese
> Prüfung habe ich unlängst hinzugefügt. Sie war der Anlass der
> löss-Diskussion. Einige Korrekturen habe ich in 58363bc vorgenommen.
> 3. Kreuzprüfung von Feld 6 und 8: Sind die Voraussetzungen erfüllt, dass
> die Felder 6 und 8 jeweils einzeln oder zugleich belegt sind? Das
> richtet sich danach, ob die Dreikonsonantenregel für das s anzuwenden
> ist und läuft auf eine Suche nach "sss[aeiouäöü]" in Feld 1 hinaus
> (Basssaite oder Bassstimme). Wie bereits erwähnt gibt es etwa 500
> solcher Falscheinträge.
Prüfungen der Felder 6 bis 8 sind in
"skripte/python/abgleich_sprachvarianten.py" nicht dabei.
> 4. Entspricht die Auszeichnung der ss-Schreibung einer Rechtschreibung
> genau der Auszeichnung der zugehörigen ß-Schreibung? Wenn ich mich
> recht erinnere, ergibt das nochmal einen großen Schwung an Fehlern.
> Meistens handelt es sich um zusammengesetzte Wörter, bei denen in der
> einen Form = und == verwendet werden, bei der anderen Form jedoch nur =.
Da die Wichtung der Trennstellen mittels Mehrfachvarianten (--, ==, ===,
...) optional ist, handelt es sich strenggenommen nicht um Fehler, sondern
um "Verbesserungsbedarf".
Ansonsten ist die Übertragung von "besser" kategorisierten/gewichteten
Trennmarkern hauptzweck des Skripts.
> Allerdings gibt es manchmal auch gute Gründe für eine Abweichung, zum
> Beispiel Mas-se in der traditionellen Rechtschreibung trotz Ma-ße oder
> Geschos-se trotz Gescho-ße.
> Eine automatische Korrektur ist wünschenswert, da es sich mitunter um
> eine ganze Menge Fehler handelt. Das ganze ließe sich dann recht
> einfach auch auf die Prüfung und Korrektur von sz-Schreibungen ausweiten.
Günter
Mehr Informationen über die Mailingliste Trennmuster