[Trennmuster] neuer Datensatztyp: messender

Werner LEMBERG wl at gnu.org
So Apr 5 00:16:29 CEST 2015


>> Für mich ist das ein weiteres Beispiel, daß in der *wortliste*
>> (d.h. der Quell-Datei) die Großschreibung beachtet werden sollte,
>> wenn damit Mehrdeutigkeiten vermieden werden können:
>>
>>    messender;mes-sen-der
>>    Messender;-2-;-3-;-4-;-5-;-6-;-7-;me[s-s/{ss/ss=s}]en-.der
>>
>> Das Extraktionsskript für die patgen-Eingangsdaten müßte dann eine
>> "Faltung" der Fälle vornehmen, wo Groß-/kleinschreibung zu
>> unterschiedlicher Trennung führt.

Die Idee finde ich gut – allerdings sollten wir so eine Großschreibung
*ausschließlich* für zweideutige Situationen verwenden.  Mein Gefühl
sagt mir, daß die Anzahl solcher Spezialfälle sehr überschaubar
bleibt.

>> Vorteile:
>>
>>  * bessere Lesbarkeit der Wortliste

Genau.

>>  * keine Trennstellenunterdrückung in diesen Fällen, falls das
>>    Anwenderprogramm Groß-/Kleinschreibung berücksichtigen kann.

Da hat ja schon Stephan Dir widersprochen :-)

> Ich denke, die beste Methode ist es, Mehrdeutigkeiten werden
> explizit vom Autor aufgelöst.  Einen entsprechenden Hinweis werde
> ich in der Dokumentation hinzufügen.

Mhmm.  Ich finde, es schadet nichts, wenn wir das in der Wortliste
irgendwie festhalten.


    Werner




Mehr Informationen über die Mailingliste Trennmuster