[Trennmuster] Testlauf mit german.dic
Guenter Milde
milde at users.sf.net
Do Aug 30 19:59:10 CEST 2012
On 28.08.12, Werner LEMBERG wrote:
> Ich habe mir den Spaß erlaubt und patgen über die Wortliste
> http://sourceforge.net/projects/germandict/files/german.7z
> laufen zu lassen (unter Ausfilterung von Wörtern kürzer als vier
> Buchstaben sowie Wörter, die bereits in unserer Wortliste sich
> befinden, also insgesamt rund 951000 Einträge). Als einfache
> Kontrolle habe ich dann »Einzelbuchstaben« gesucht, also
> grep -e '-.-' ...
> angewandt; da weiß man sofort, daß es Falschtrennungen sein müssen
> nach unseren Kriterien. Das Ergebnis ist eine Liste von rund 18000
> falsch getrennten Wörtern, also fast 2%.
> Zur Anschauung habe ich aus dieser Liste die Wörter angehängt, die
> genau zwei Trennstellen enthalten. Das ist alles nicht redigiert.
> Es gibt also noch sehr viel zu tun...
Vorgehensweisenvorschlag für Freiwillige:
* Abschnitt aus der Liste ausschneiden (so daß nicht der nächste
Freiwillige die Arbeit noch einmal macht) und abspeichern.
> Abenda-b-iturs
> Aben-d-rock
> Aben-d-rocks
> ab-s-treue
> ab-s-treust
* Trennstellen korrigieren. (Wenn möglich, dabei auch kategorisieren
(-|=), bei Unklarheit/Unsicherheit den "allgemeinen Trenner" '·' verwenden.
(Unkategoriserte Trennstellen mit '-' werden leicht übersehen!)
Wenn keine Unterscheidung nach Sprachvarianten nötig ist, im Format
"ein getrenntes Wort pro Zeile" belassen.
Aar=gaus
Abend=ab|itur
Abend=ab|iturs
Abend=rock
Abend=rocks
ab|streue
ab|streust
ab|streut
Acker=klee
Acker=klees
Wenn eine Unterscheidung nach Sprachvarianten nötig ist,
entweder zunächst auslassen, oder in das Vollformat, z.B.
(key;-2-;de-1901;de-1996) überführen.
* Das skripte/python/prepare_patch.py verwandelt diese Angaben dann in einen
Patch für die Wortliste:
#> cd skripte/python
#> python prepare_patch.py neu -k NEUEINTRAGSDATEINAME
* Patch besehen und wenn OK anwenden:
#> patch wortliste.patch ../../wortliste
Das ist jetzt noch nicht getestet, kann also Tipp- und Denkfehler enthalten.
Günter
Mehr Informationen über die Mailingliste Trennmuster