Für Außenstehende ist es schwer, ins Themengebiet der Künstlichen Intelligenz einzusteigen. Dies liegt u.a. daran, dass die Künstliche Intelligenz von vielen Fachbegriffen geprägt ist. Einen stellen wir euch heute vor.

Disambiguierung ist unerlässlich, wenn es darum geht, dass Maschinen versuchen, Texte bzw. Inhalte auszulesen und zu verstehen. Eine Herausforderung ist, dass Wörter, die gleich geschrieben werden, unterschiedliche Bedeutungen haben können. So kann eine „Bank“ ein Finanzinstitut sein, aber auch ein Gartenmöbel. Ein „Hummer“ kann ein Krustentier sein, aber genauso auch ein Geländewagen. Die Künstliche Intelligenz muss nun durch die Analyse des Kontextes ermitteln, welches Bedeutungsumfeld gemeint ist. Diesen Vorgang, bei dem sprachliche Mehrdeutigkeiten aufgelöst werden, bezeichnet man als „Disambiguierung“. Das Wort setzt sich aus dem Lateinischen „dis“ („auseinander“) sowie „ambiguus“ („doppeldeutig“) zusammen.

Wie funktioniert die Disambiguierung?

Damit das Ziel der Disambiguierung einen mehrdeutigen Ausdruck in seiner Intention verständlich zu machen, erreicht wird, setzt die Künstliche Intelligenz den Begriff in Beziehung zu seinem Kontext. Das heißt, es wird beispielsweise analysiert, welche Begriffe in Verbindung mit dem ambigen auftauchen. Also zum Beispiel Kredit, Überweisung und Girokonto oder Garten, Tisch und Terrasse. Schwierig wird dies insbesondere dann, wenn mehrere Bedeutungskontexte in einem Text vorkommen, also wenn z. B. eine Bank vor einer Bank steht. Doch das ist in der Praxis eher selten der Fall.

Was sind die Herausforderungen bei der Disambiguierung?

Um die Begriffe zu „verstehen“, setzt die Künstliche Intelligenz auf Wissen, das ihr vorher mithilfe von Lexika oder Synonymwörterbüchern antrainiert wurde. So muss sie beispielsweise auch wissen, dass eine Schreibweise für zwei unterschiedliche Wortarten stehen kann. Zum Beispiel kann „stahl“ die Vergangenheitsform des Verbs „stehlen“ sein, aber als Substantiv die Bezeichnung für einen Werkstoff darstellen. Außerdem muss auch Umgangssprache berücksichtigt werden, so kann „Blech“ ein Werkstoff sein. Als Wortgruppe „Blech reden“ wird es jedoch zu einem Synonym für „Unsinn erzählen“. Die Schwierigkeit bei geschriebener Sprache besteht darin, dass der auditive Kontext fehlt. Bei gesprochener Sprache wird das Wort „modern“ je nach Betonung auf der ersten Silbe zu einem Synonym für verfaulen oder bei Betonung auf der zweiten Silbe zu einem Synonym für fortschrittlich. Die Künstliche Intelligenz muss bei der reinen Textanalyse auf diese Zusatzinformationen verzichten und die Bedeutung nur durch den Kontext erschließen.

Doch nicht nur einzelne Wörter, auch ganze Sätze können ambig sein. Bei der Aussage „Der Absatz war hoch.“ ist nicht klar, ob der hintere Teil der Schuhsohle oder der Verkauf von Waren gemeint ist. Dies kann nur durch die Betrachtung von mehreren Sätzen, bzw. eines ganzen Absatzes erkannt werden.

Eine gut funktionierende Disambiguierung ist essenziell für qualitativ hochwertige Big Data Auswertungen. Content darf nicht für sich allein betrachtet, sondern muss in den entsprechenden Kontext gesetzt bzw. analysiert werden. Nur so hat Künstliche Intelligenz eine Chance, Intentionen und Zusammenhänge zu verstehen.

Daniela Kloth verantwortet als Head of Marketing die konsequente Ausrichtung der semcona GmbH mit ihren Smart Relevance Solutions an den Bedürfnissen des Marktes. Als erfahrene Medienmanagerin verfügt sie über umfangreiches Know-how im Onlinemarketing, der Presse- und Öffentlichkeitsarbeit sowie im Bereich Social Media Marketing. Im semcona Blog beschäftigt sie sich intensiv mit den Themen Context Marketing, Cognitive Computing sowie Smart Data.