Le text mining : automatisation du traitement de textes volumineux

Définition

Le Text Mining (fouille de texte ou extraction de connaissances) est l’ensemble des méthodes et outils destinés à l’exploitation de textes écrits volumineux : emails, fichiers word, documents powerpoint…

Afin d’extraire du sens de ces documents, le text mining se base sur des techniques d’analyse linguistique. La fouille de textes s’utilise pour le classement de documents, la réalisation de résumés de synthèses automatiques ou en assistance des veilles technologique et stratégique.

Utiliser l’informatique pour l’automatisation de la synthèse de textes est une pratique aussi ancienne que l’informatique. En effet, un chercheur d’IBM, en 1958, est l’inventeur du terme de « Business Intelligence ».

Actuellement, Google propose ce service à grande échelle en déposant un brevet pour la création d’un contenu original via la synthétisation automatique d’articles lus sur le web.

Applications

La fouille de textes permet l’analyse de la base des emails que reçoit une entreprise et de détecter le motif principal de contact. Il est possible d’élaborer des modèles pour un classement automatique des mails dans plusieurs catégories de motifs de contacts. Cette automatisation permet un envoi plus rapide de la demande au service et à la personne concernée afin d’accroître la satisfaction client.

L’émergence des réseaux sociaux développe l’analyse de sentiments (opinion mining). Elle consiste à analyser les textes volumineux afin d’en extraire les sentiments principaux pour mieux comprendre les opinions et perceptions émanant des textes analysés.

Les données sensibles se rapportant à l’origine raciale, à la santé, à la politique et à la religion des clients, notamment, des partenaires ou collaborateurs sont interdites par la CNIL. Le prochain Règlement Général sur la Protection des Données augmente l’obligation de résoudre cette problématique. Des algorithmes de text mining sont développés à cette fin.

L’extraction de connaissances s’impose dans d’autres tâches : actions marketing (formulaires de contact, réseaux sociaux), gestion de la relation client ou, entre autres, optimisation du contenu web dans le but d’un référencement naturel.