[Trennmuster] Testlauf mit german.dic

Guenter Milde milde at users.sf.net
Do Aug 30 19:59:10 CEST 2012


On 28.08.12, Werner LEMBERG wrote:

> Ich habe mir den Spaß erlaubt und patgen über die Wortliste

>   http://sourceforge.net/projects/germandict/files/german.7z

> laufen zu lassen (unter Ausfilterung von Wörtern kürzer als vier
> Buchstaben sowie Wörter, die bereits in unserer Wortliste sich
> befinden, also insgesamt rund 951000 Einträge).  Als einfache
> Kontrolle habe ich dann »Einzelbuchstaben« gesucht, also

>   grep -e '-.-' ...

> angewandt; da weiß man sofort, daß es Falschtrennungen sein müssen
> nach unseren Kriterien.  Das Ergebnis ist eine Liste von rund 18000
> falsch getrennten Wörtern, also fast 2%.

> Zur Anschauung habe ich aus dieser Liste die Wörter angehängt, die
> genau zwei Trennstellen enthalten.  Das ist alles nicht redigiert.

> Es gibt also noch sehr viel zu tun...

Vorgehensweisenvorschlag für Freiwillige:

* Abschnitt aus der Liste ausschneiden (so daß nicht der nächste
  Freiwillige die Arbeit noch einmal macht) und abspeichern.

> Abenda-b-iturs
> Aben-d-rock
> Aben-d-rocks
> ab-s-treue
> ab-s-treust
  
* Trennstellen korrigieren. (Wenn möglich, dabei auch kategorisieren
  (-|=), bei Unklarheit/Unsicherheit den "allgemeinen Trenner" '·' verwenden.
  (Unkategoriserte Trennstellen mit '-' werden leicht übersehen!)
  
  Wenn keine Unterscheidung nach Sprachvarianten nötig ist, im Format
  "ein getrenntes Wort pro Zeile" belassen.
  
   Aar=gaus
   Abend=ab|itur
   Abend=ab|iturs
   Abend=rock
   Abend=rocks
   ab|streue
   ab|streust
   ab|streut
   Acker=klee
   Acker=klees

  Wenn eine Unterscheidung nach Sprachvarianten nötig ist,
  entweder zunächst auslassen, oder in das Vollformat, z.B.
  (key;-2-;de-1901;de-1996) überführen.  

* Das skripte/python/prepare_patch.py verwandelt diese Angaben dann in einen
  Patch für die Wortliste:
  
    #> cd skripte/python
    #> python prepare_patch.py neu -k NEUEINTRAGSDATEINAME
    
* Patch besehen und wenn OK anwenden:

    #> patch wortliste.patch ../../wortliste

Das ist jetzt noch nicht getestet, kann also Tipp- und Denkfehler enthalten.
    
Günter        



Mehr Informationen über die Mailingliste Trennmuster