[Trennmuster] Feld 8

Guenter Milde milde at users.sf.net
Fr Jan 16 22:10:09 CET 2015


On 14.01.15, Stephan Hennig wrote:

...

> Günter, ich habe hier noch eine Notiz, bei Fehlern der ss-Schreibung auf
> das Skript python/sprachabgleich.py zu verweisen.  Kannst du kurz
> klarstellen, ob und welche der beschriebenen Prüfungen das Python-Skript
> durchführen kann?

Der aktuelle Name ist "skripte/python/abgleich_sprachvarianten".
Primär ist das Skript zum Übertragen von kategorisierten Trennstellen. Es
wurde dann um eine ß/SS Prüfung/Ergänzung erweitert.

Aufruf 

  #> cd skripte/python/
  #> python abgleich_sprachvarianten.py

...

> Es gibt vier Fehler von Eszett-Schreibungen,
> die ich gern automatisch korrigieren würde.

> 1. Existiert zu einem Datensatz, dessen Felder ein ß enthalten ein
> Datensatz mit ss-Schreibung?  Diese Prüfung wurde schon seit längerem
> durchgeführt.

Dies Prüfung des Schlüssels (Spalte 1) macht auch
"abgleich_sprachvarianten.py".

> 2. Existiert zu jeder gültigen Rechtschreibung mit ß auch eine gültige
> Rechtschreibung mit ss?  Im Unterschied zur Prüfung 1 werden hiermit
> Datensätze erkannt, die zwar eine ss-Schreibung enthalten, jedoch nicht
> für alle Rechtschreibungen, für die die ß-Schreibung gültig ist.  Diese
> Prüfung habe ich unlängst hinzugefügt.  Sie war der Anlass der
> löss-Diskussion.  Einige Korrekturen habe ich in 58363bc vorgenommen.

> 3. Kreuzprüfung von Feld 6 und 8: Sind die Voraussetzungen erfüllt, dass
> die Felder 6 und 8 jeweils einzeln oder zugleich belegt sind?  Das
> richtet sich danach, ob die Dreikonsonantenregel für das s anzuwenden
> ist und läuft auf eine Suche nach "sss[aeiouäöü]" in Feld 1 hinaus
> (Basssaite oder Bassstimme).  Wie bereits erwähnt gibt es etwa 500
> solcher Falscheinträge.

Prüfungen der Felder 6 bis 8 sind in
"skripte/python/abgleich_sprachvarianten.py" nicht dabei.

> 4. Entspricht die Auszeichnung der ss-Schreibung einer Rechtschreibung
> genau der Auszeichnung der zugehörigen ß-Schreibung?  Wenn ich mich
> recht erinnere, ergibt das nochmal einen großen Schwung an Fehlern.
> Meistens handelt es sich um zusammengesetzte Wörter, bei denen in der
> einen Form = und == verwendet werden, bei der anderen Form jedoch nur =.

Da die Wichtung der Trennstellen mittels Mehrfachvarianten (--, ==, ===,
...) optional ist, handelt es sich strenggenommen nicht um Fehler, sondern
um "Verbesserungsbedarf".

Ansonsten ist die Übertragung von "besser" kategorisierten/gewichteten
Trennmarkern hauptzweck des Skripts.

>  Allerdings gibt es manchmal auch gute Gründe für eine Abweichung, zum
> Beispiel Mas-se in der traditionellen Rechtschreibung trotz Ma-ße oder
> Geschos-se trotz Gescho-ße.

> Eine automatische Korrektur ist wünschenswert, da es sich mitunter um
> eine ganze Menge Fehler handelt.  Das ganze ließe sich dann recht
> einfach auch auf die Prüfung und Korrektur von sz-Schreibungen ausweiten.


Günter



Mehr Informationen über die Mailingliste Trennmuster