Textklassifikation

Textklassifikation ist eine Klassifizierung. Sie befasst sich mit der inhaltlichen Analyse von Texten, um diese bestimmten vordefinierten Klassen zuzuordnen, die nach inhaltlichen Merkmalen und Aussagen aufgebaut sind. Alle Klassen haben eigene Klassenprofile, die je nach Systemausrichtung manuell oder automatisch erstellt werden.


Die Textklassifikation ist eine Technik mit der umfangreiche Informationsmengen durch Algorithmen sortiert, gefiltert und klassifiziert werden. Mit ihrer Hilfe können Informationen den Klassen zugeordnet werden und sie erleichtern die Suche in großen Datenmengen. Die Anzahl an Klassen ist praktisch unbegrenzt. Das Klassensystem kann hierarchisch aufgebaut sein und jede einzelne Information kann einer oder auch mehreren Klassen zugeordnet werden. Entscheidend für die Einordnung einer Information in eine Klasse setzt voraus, dass die Information die spezifizierten Merkmale enthält.

Die Textklassifikation wird u.a. in Zeitungen und Portalen eingesetzt, die ihre Nachrichten und Berichte verschiedenen Rubriken wie Politik, Sport, Kultur etc. unterteilen. Da die Zuordnung relativ einfach ist, kann sie durch lernende Systeme erfolgen. Bei elektronischen Dokumenten kann die Zuordnung nach dem Inhalt erfolgen und nach Art der elektronischen Dienste erfolgen wie E-Mail oder Kurzmitteilungen. Dazu gehören auch die Analyse und das Sperren von unerwünschten E-Mails, den Spams.

Alle Textklassifikationen arbeiten mit einem Klassifizierer, der durch eine vorsortierte Dokumentensammlung gebildet wird. Bekannte Verfahren der Textklassifizierung sind das Verfahren der Support Vector Machine (SVM) und das Naive-Bayes-Verfahren.

Informationen zum Artikel
Deutsch: Textklassifikation
Englisch: text classification
Veröffentlicht: 19.09.2019
Wörter: 219
Tags: #Telekommunikations-Datendienste
Links: Algorithmus, content, Dienst, Dokument, E-mail (electronic mail)