[Trennmuster] Trennmuster mit Umschrift
Selke, Gisbert W.
gisbert.selke at wido.bv.aok.de
Mi Jul 1 23:48:37 CEST 2020
Am 1 Jul 2020 um 16:49:05 +200 schrieb Guenter Milde:
> > > Wie wahrscheinlich ist der Fall, dass Text in Umschrift mit den
> > > Standard-Trennmustern gesetzt wird?
> > > Wie wahrscheinlich ist es, dass einzelne Wörter in Umschrift in
> > > einem Text auftauchen?
> > Beides kann durchaus vorkommen, glaube ich. Beispielsweise, wenn ein
> > Text in Englisch geschrieben ist und für den deutschen Text die
> > Umgebung inklusive Trennmuster auf »deutsch« gesetzt wird, trotzdem
> > aber die Wörter in Umschrift verwendet werden.
> Kommt mir etwas weit hergeholt vor (sorgfältiges Setzen der Sprache aber
> Groesse statt Gr"o\sse?).
Zu empirischen Wahrscheinlichkeiten kann ich da nichts sagen, mir fehlen die Daten-
> Gisbert, was war Dein Anwendungsfall?
Wir haben eine Reihe von automatisiert erstellten Berichten, die Angaben zu Arzneimitteln (hauptsächlich statistische Angaben, aber auch solche über Bestandteile, Klassifikationen, Interaktionspotenziale, ...) ausweisen. Teilweise ist das normaler Fließtext, teilweise aber auch enger Spaltensatz (Tabellen). Angaben zu Wirkstoffen etc. übernehmen wir teilweise aus anderen Quellen, deren Qualität wir nicht steuern können. (Konkretes Besipiel: In einigen Regionen Deutschlands sind die Kassenärztlichen Vereinigungen nicht in der Lage, die Namen und Anschriften ihrer Mitglieder (d.i.: Ärzte) in "normaler" Schreibweise anzugeben, sondern sie liefern sie als ISO-636 (NICHT German reference version, sondern original US) ab.)
Da würden wir gerne erreichen, dass wir uns nicht nur über die blöden (und unnötigen) Umschreibungen, sondern auch noch über falsche Trennungen ärgern müssen -- jedenfalls so gut es geht.
Das ist es aus meiner Sicht aber *nicht* wert, Verschlechterungen der Trennmuster für korrekt codierte Texte hinzunehmen. Jedenfalls nicht für Standardtrennmuster, und jedenfalls nicht in dem Sinne, dass falsche Trennstellen hinzukommen. Optimal wäre aus meiner Sicht, dass der Sprachauszug die Möglichkeit bietet, Umschriftversionen automatisiert zu erzeugen, dabei aber keine Widersprüche generiert ("zu-en-de" schlägt "zuen-de"="zün-de"). Das hat Günter bereits umgesetzt. Das kann aber meinethalben ein optionales Feature bleiben. Wir für unseren Fall wissen dann, wie wir Trennmuster für unsere Zwecke generieren, und der Normalsäzzer bleibt davon unbehelligt. Oder es können fertige Trennmuster als Alternative angeboten werden.
Falls dieses Feature aber insgesamt zu esoterisch scheint, haben wir auch kein Problem damit, uns diese automatische Umschriftgenerierung lokal mit einem Skriptchen selbst zu erzeugen. Das Trennmuster-Repositorium muss nicht den Anspruch haben, für jeden denkbaren Sonderwunsch eine Lösung zu bieten. Selbst wenn es *mein* Sonderwunsch ist.
> Von der obigen Stichprobe eindeutig zerlegter Wörter werden 4050 Wörter
> anders getrennt als es der Zerlegungsalgorithmus erwartet.
> Nach dem Filtern der Ableitungen bleiben 2040 "Eintragskandidaten".
> Das könnte zu schaffen sein.
> Die Liste ist da und kann an Interessenten verschickt werden.
Diesen Check finde ich *sehr* hilfreich. Ich bin gerne bereit, mir die Liste anzugucken. Lieber aufteilen oder lieber synchron mit mehrerenAugenpaaren?
\Gisbert
Mehr Informationen über die Mailingliste Trennmuster