112128

Die verschidenen Arten von Text Mining

02.09.2009 | 10:01 Uhr |

Text Analytics siebt nützliches Wissen aus unstrukturierten Daten heraus. Hierzu gehören beispielsweise Artikel, freie Textantworten auf eine Umfrage, Auszüge aus Datenbanken wie Call-Center-Aufzeichnungen oder Kunden-E-Mails, aber auch News Feeds oder Blogs. Die Methode erforscht dabei Verbindungen zwischen verschiedenen Dokumenten. Textanalytiker nutzen hierfür beispielsweise Algorithmen, um Gruppenkonzepte zu beschreiben oder Zusammenhänge zwischen diversen Strukturen und Datengebilden herauszuarbeiten. Die Ergebnisse der Textanalyse können dann in Modelle für Predictive Analytics einfließen.

Verschiedene Ansätze der Textanalyse stehen heute zur Auswahl. So können Unternehmen beispielsweise Mitarbeiter beauftragen, die Texte manuell und einzeln durchzulesen, Kommentare zu notieren und dann zu bestimmen, welcher Kategorie sie zugeordnet werden. Marktforscher kategorisieren auf diese Art unstrukturierte Textantworten in Umfragen. Dieser manuelle Ansatz ist sehr akkurat, nimmt aber natürlich meist zu viel Zeit und Ressourcen in Anspruch. Außerdem ist er bei der großen Menge an Daten heutzutage nicht praktikabel.

Ein zweiter Weg sind automatisierbare Statistiklösungen. Das Problem: Einige dieser Lösungen zählen lediglich, wie häufig bestimmte Ausdrücke auftauchen, und berechnen mögliche Ähnlichkeiten zu verwandten Begriffen. Sie gehen aber nicht auf die Mehrdeutigkeiten der menschlichen Sprache ein: Bedeutende Verkettungen können sich in auf den ersten Blick irrelevanten Ergebnissen verstecken oder sogar ganz übersehen werden. Einige dieser statistischen Lösungen versuchen, diese Ungenauigkeiten zu beheben. Sie erklären Analysten, wie sie Regeln entwickeln können, um belanglose Ergebnisse außen vor zu lassen. Da die Analysten diese Regelwerke jedoch schreiben und dann kontinuierlich pflegen müssen, ist dieser Weg komplex und teuer.

PC-WELT Marktplatz

0 Kommentare zu diesem Artikel
112128