transfer 22(2) » Neue Informations- und Kommunikationstechnologien

Named Entity Recognition für die Deutsche Presse-Agentur und die Kommunikationswissenschaft?

Wie gut arbeiten Named Entity Recognition Tools, die es derzeit auf dem Markt gibt?

Die Kommunikationswissenschaft steht vor der Herausforderung, aus Texten Informationen zu gewinnen. Named Entity Recognition ist ein Verfahren, bei dem Eigennamen (Personen, Orte und Organisationen) automatisch erkannt werden. Auf dem Markt gibt es eine Vielzahl von Dienstleistern, die dieses Verfahren anbieten. Um solche Tools einsetzen zu können, müssen ihre Stärken und Schwächen analysiert werden. Ein Vergleich dieser Tools ist nur mit einem Korpus manuell annotierter Texte möglich. Es wurden 200 Texte codiert und dann mit sechs Tools verglichen. Der Vergleich zeigt, dass die Tools unterschiedliche Ergebnisse erzielen. Dabei erreicht kein Anbieter Ergebnisse, die den Annotationen des Korpus nahe kommen. Die Kategorien der Entitäten Person und Organisation werden besser erkannt als Orte und Andere. Für die Ressorts Sport und Wirtschaft funktioniert die Entitätsextraktion am besten. Es konnte gezeigt werden, dass eine Kombination von Tools bessere Ergebnisse erzielen kann.