[Trennmuster] Pragmatismus vs. Purismus

Guenter Milde milde at users.sf.net
So Nov 13 20:32:22 CET 2016


On 12.11.16, Werner LEMBERG wrote:

> >> Ehrlich gesagt kümmert mich das »offiziell« bei diesen Wörtern
> >> recht wenig.  Mein Standpunkt ist, lieber beide Formen zu
> >> akzeptieren.
> >
> > Schon klar.  Können wir gern machen, aber dann auch gut sichtbar
> > dokumentieren.

> OK.  Dokumentation ist immer gut.

> > Denn dann geht der "Nebeneffekt" der Trennliste -- ein umfanreicher
> > regelkonformer Parallel-Korpus der verschiedenen deutschen
> > Orthographien zu sei -- verloren.

> Das sollten wir mittels Kommentaren regeln.  

OK

> Apropos Kommentare: Wir sollten uns auch auf eine Kommentarsyntax
> einigen, genauer gesagt, 

> wie mehrere, voneinander unabhängige Kommentare formatiert werden.
> Beispielsweise könnten wir auch nach »#« die Kommentarfelder mit »;«
> trennen. 

Ich finde ein Komma günstiger, dann kann man einfacher die Zahl der
Felder aus der Zahl der Trenner bestimmen und auch manche "regexp" Suche
(zB. nach einem speziellen Wortanfang ";en-" wird einfacher wenn nicht
erst Kommentare "ausgeblendet" werden müssen.

> Außerdem wäre es sinnvoll, wenn wir eine Liste von Standardkommentaren
> haben (»geogr.«, »Name«, etc.), damit die Information auch entsprechend
> ausgewertet werden kann.

Wir haben schon eine "de fakto" Standardisierung (ich suche einfach mit
grep nach ähnlichen Kommentaren), aber eine externe Liste könnte helfen.

Vorschläge:

* immer, wenn eine "unnormale/exotische" Trennung im Wort vorkommt, ein
  Kommentar
  
  - bei Eigennamen und geogr. Namen mit dem (sub)String "Name"

  - bei Fremdwörtern mit Herkunftssprache (en., fr., ru.,)
    (Frage: Sprachkennzeichner nach BCP47 (Internetnamen) oder wie in
    Wörterbüchern?)
 
  Motivation: Ggf. können wir testen, ob es die Trennmuster verbessert,
  "exotische" Trennungen erst später dazuzugeben.
  (Alle Wörter mit "Name" im Kommentar werden erst bei Stringlänge 5
  an patgen verfüttert...  oder so.)
     
* bei Lehnwörtern/eingedeutschten Fremdwörtern mit "<" (abgeleitet aus).


Günter



Mehr Informationen über die Mailingliste Trennmuster