[Trennmuster] Arzneistoffnamen -- letzte Abgleiche mit der Wortliste

Selke, Gisbert W. gisbert.selke at wido.bv.aok.de
Do Aug 20 14:13:43 CEST 2020


[Sorry, ein Teil der folgenden Diskussion war versehentlich bilateral gelaufen]:
Am 19. August 2020 um 13:04 schrieb milde at users.sf.net:

> > Die "="-Stellen dürften eher unproblematisch sein, und von den
> > ">"-Stellen gibt es bei den Arzenistoffen nur sehr, sehr wenige. 
> > Bleiben also die "<"-Stellen, die sehr zahlreich sind. Ich fürchte, die
> > Grenzen zwischen "exotisch" und "deutsch" werden da fließend sein:
> > neulich z.B. in der Tagesschau ein Bericht unter dem Aufmacher "Hey
> > Doc, ich brauch mal ne Ibu" (Ibuprofen). Und was dem einen ein
> > sinnvoller Zusatz ist, wird dem anderen trivial oder falsch erscheinen.
> > -- Aber irgendwie machbar wird es schon sein.
> Etwas Unsicherheit bleibt immer, wir haben es ja mit natürlicher
> Sprache zu tun und die entwickelt sich.
[...]
> Außerdem haben wir zur Zeit einige Einträge wo ein als Präfix
> bezeichneter Wortteil nur ein-/zweimal in der Wortliste auftaucht
> (Alko<lenker, ...). Allerdings ist dies nur bei wenigen der 169
> "exotischen" Präfixe welche gegenwärtig in der Liste sind der Fall.
> Hier müssen wir noch entscheiden, wie das gehandhabt werden soll. 
> Das kann anhand des Liste der Suffixe die man mit
>   cd wortliste/skripte/python/edit_tools
>   ./wortzerlegung.py -p alle --sort anzahl
> erhält auch noch nach Einsortieren der Arzneistoffliste gemacht werden.
Das ist auf jeden Fall sehr hilfreich!

> > > > Es gibt außerdem Standard-Wortstämme (im Sinne von
> > > > https://www.drugs.com/inn-stems.html), wo nur ein Teil des "Kurzworts"
> > > > ein nachvollziehbar sinntragendes Element ist, z.B. Ro-fe<co-xib:
> > > > "Coxib" hat eine Bedeutung (COX-2-Inhibitor), "Rofe" meines Wissens
> > > > nicht.)
> > > Da haben wir also ein Kurzwort (Coxib) mit einem Kunstwort als
> > > Bestimmungswort. Ich würde hier Ro-fe=co-xib oder Ro-fe>co-xib schreiben.
> > Das finde ich beides schwer nachvollziehbar. Gegen "=" spricht die
> > Trennzeichen-HOWTO-Regel
> > 	Grundidee ist, dass "=" Teile trennt, die als eigenständige
> > 	Teile wahrgenommen werden.
> > "Rofe" ist kein "eigenständiger Teil" und hat keine eigene lexikalische
> > Bedeutung; ich glaube auch nicht, dass jemand "Rofe" als Kunstwort
> > wahrnimmt -- jedenfalls derzeit. Das kann sich (siehe obiges
> > Ibuprofen-Beispiel) allerdings auch ändern.
> Auch (oder gerade) für "<" wird eine eigene semantische Bedeutung des
> Präfixes erwartet, entweder als bekannter Modifikator (ge-, zu-, ab-, er-,
> pro-, ex-, ...), oder als modifiziertes Bestimmungswort mit bekannter
> Bedeutung (Photo-, gravi-, okta-, chromo-, aqua-, ...).
> Die zweite Klasse könnte auch mit "=" abgetrennt werden, aber da sie in
> komplexen Zusammensetzungen meist enger gebunden ist ist die Auszeichnung
> mit "<" praktischer.
> > Gegen ">" spricht, dass das Kunst- und Kurzwort "Coxib" eine eigene
> > Bedeutung angenommen hat ("Die Coxibe sind aus der Therapie nicht mehr
> > wegzudenken") und keineswegs eine Nachsilbe wie z.B. in "Lang>sam>keit"
> > ist.
> Neben den reinen Wortbildungssuffixen haben wir auch welche mit semantischer
> Rolle, wie -son (Rasmus>son) oder -maßen (anerkannter>maßen). Aber ich gebe
> zu, dass "coxib" nicht in diese Kategorie fällt.
> > Das lässt dann am Ende "Ro-fe<co-xib" oder das neutrale "Ro-fe-co-xib"
> > übrig (letzteres analog zu "Him-bee-re" -- "Him-" ist auch kein
> > Bestimmungs*wort* zu "beere"). 
> > Persönlich finde "Ro-fe<co-xib" hilfreicher, weil es mich darüber
> > informiert, dass zumindest einer der beiden Wortbestandteile ("Rofe"
> > oder "coxib") eine sinntragende Einheit ist und dass das nicht nur
> > zusammengewürfelte Buchstaben sind (was ein Eindruck ist, der sich bei
> > vielen pharmazeutischen/pharmakologischen Namen zunächst aufdrängt). 
> Richtig.
> Das Grundproblem hier ist, das ein Wort der Zusammensetzung eine
> erkennbare Bedeutung hat, das andere nicht. Wir müssen nun überlegen, wie
> diese "exotischen" Bestandteile so ausgezeichnet werden, dass Mensch und
> Maschine dies erkennen können.
> Ich schlage vor, bei nicht herleitbarer Herkunft/Bedeutung von
> Arzneistoffbezeichnungen das Schlüsselwort "Name" zu verwenden (vgl.
> Diskussion zu den Schlüsselwörtern unten). Hier ist es insofern besonders
> gerechtfertigt, da Rofecoxib offizieller Freiname ist.
Ja, "Namen" (von Wirkstoffen) sind das alle (ohne jetzt weiter in Rylesche und/oder Kripkesche Namenstheorien abtauchen zu wollen).
Ähnlich wie bei der Frage nach dem Zusatz "Kurzwort" ist die Frage, ob die zusätzliche Auszeichnung einen Gewinn an Klarheit bringt.
Ich bin da leidenschaftslos; meinetwegen kann auch "pharm. Name, Kurzwort" gleichzeitig da stehen, wenn das jemandem hilft.

> > Vollständig sieht mein aktueller Eintrag zurzeit übrigens so aus, um
> > die Auszeichnung nachvollziehbar zu machen:
> > 	Rofecoxib;Ro-fe<co-xib # pharm. < -coxib = Antirheumatikum, COX-2-Hemmer
> > (Insgesamt gibt es übrigens zurzeit sieben Coxibe in der Liste.)
> Wenn "Coxib" inzwischen auch ohne Vorsatz als Bezeichung für die Stoffgruppe
> der COX-2-Hemmer verwendet wird, schlage ich einen eigenen Eintrag vor:
> Coxib;Co-xib # pharm. Kurzwort (COX-2-Inhibitor) (Antirheumatikum)
Den Eintrag gibt es tatsächlich so ähnlich schon:
  Coxib;Co-xib # pharm. < Antirheumatikum, COX-2-Hemmer oder mit der Großschreibungssyntax

> dann muß Coxib bei Rofecoxib und den anderen Coxiben nicht noch einmal erklärt werden:
>  Rofecoxib;Ro-fe<co-xib # pharm. Name
Muss nicht, stört aber vermutlich nicht, wenn es da nochmals steht.

> "Name" ist als Schlüsselwort bereits etabliert und indiziert das einige
> Sonderregeln gelten, z.B. darf ein Name einen "Phantasieteil" mit einem
> bekannten Grundwort verbinden (Ah-rens=burg, Boltz=mann,
> Un-ter<=prem=stät-ten) oder von der Regel abweichende Schreibung haben.
Ja, das wäre auch eine Möglichkeit.

> > Bei solchen Verfeinerungen der Auszeichnung sollte bedacht werden, ob
> > das Ziel (vernünftige Trennungen unter einem breiten Rahmen von
> > Randbedingungen) den Aufwand rechtfertigt und ob der Gewinn an Klarheit
> > und Konsistenz den Pflegeaufwand rechtfertigt.
> Mein Ziel ist es den Pflegeaufwand gering zu halten. 

> > Wie machen wir da nun weiter?
> Ich werde versuchen eine Nomenklatur/Erklärung der Kommentarsyntax in
> README.wortliste zu ergänzen.
> Bei der Arzneistoffliste bin ich unsicher, ob es einfacher ist, dies zunächst
> in die Gesamtliste einzusortieren (dann sieht man besser, wie sich die Sache
> im Kontext ausmacht) und dann abzugleichen
> oder zunächst separat zu lassen (z.B. Such-/Ersetz-Vorgänge und
> vorher/nachher Vergleiche gehen dann leichter)
Habe ich jetzt erst mal separat zur Ablage im Repository an Werner geleitet, sodass sich jeder darin nach Belieben drin umsehen kann. Bei Änderungen möchte ich aber um kurze Notiz oder besser Abstimmung bitten, damit ich das mir anderen Arbeiten hier (insbesondere an der Supplement-Liste) konistent halten kann.

> Auf jeden Fall kannst Du probeweise mit 
>   skripte/sort.py wortliste arzneistoffnamenliste > worstliste_mit_arznei
> leicht eine Gesamtliste erstellen.
Statt sort.py nehmen wir zwegs Weiterverarbeitung sprachauszug.py, damit erstellen wir hier auch regelmäßig testweise Pattern, um die Konsistenz in den Trennmustern zu prüfen.

Bis denn --

\Gisbert




Mehr Informationen über die Mailingliste Trennmuster