[Trennmuster] Pragmatismus vs. Purismus
Guenter Milde
milde at users.sf.net
So Nov 13 20:32:22 CET 2016
On 12.11.16, Werner LEMBERG wrote:
> >> Ehrlich gesagt kümmert mich das »offiziell« bei diesen Wörtern
> >> recht wenig. Mein Standpunkt ist, lieber beide Formen zu
> >> akzeptieren.
> >
> > Schon klar. Können wir gern machen, aber dann auch gut sichtbar
> > dokumentieren.
> OK. Dokumentation ist immer gut.
> > Denn dann geht der "Nebeneffekt" der Trennliste -- ein umfanreicher
> > regelkonformer Parallel-Korpus der verschiedenen deutschen
> > Orthographien zu sei -- verloren.
> Das sollten wir mittels Kommentaren regeln.
OK
> Apropos Kommentare: Wir sollten uns auch auf eine Kommentarsyntax
> einigen, genauer gesagt,
> wie mehrere, voneinander unabhängige Kommentare formatiert werden.
> Beispielsweise könnten wir auch nach »#« die Kommentarfelder mit »;«
> trennen.
Ich finde ein Komma günstiger, dann kann man einfacher die Zahl der
Felder aus der Zahl der Trenner bestimmen und auch manche "regexp" Suche
(zB. nach einem speziellen Wortanfang ";en-" wird einfacher wenn nicht
erst Kommentare "ausgeblendet" werden müssen.
> Außerdem wäre es sinnvoll, wenn wir eine Liste von Standardkommentaren
> haben (»geogr.«, »Name«, etc.), damit die Information auch entsprechend
> ausgewertet werden kann.
Wir haben schon eine "de fakto" Standardisierung (ich suche einfach mit
grep nach ähnlichen Kommentaren), aber eine externe Liste könnte helfen.
Vorschläge:
* immer, wenn eine "unnormale/exotische" Trennung im Wort vorkommt, ein
Kommentar
- bei Eigennamen und geogr. Namen mit dem (sub)String "Name"
- bei Fremdwörtern mit Herkunftssprache (en., fr., ru.,)
(Frage: Sprachkennzeichner nach BCP47 (Internetnamen) oder wie in
Wörterbüchern?)
Motivation: Ggf. können wir testen, ob es die Trennmuster verbessert,
"exotische" Trennungen erst später dazuzugeben.
(Alle Wörter mit "Name" im Kommentar werden erst bei Stringlänge 5
an patgen verfüttert... oder so.)
* bei Lehnwörtern/eingedeutschten Fremdwörtern mit "<" (abgeleitet aus).
Günter
Mehr Informationen über die Mailingliste Trennmuster