COURS : Les données textuelles et leurs composantes
Les données textuelles consistent en un ensemble de mots, phrases et paragraphes dans une langue naturelle ou artificielle. Les langues naturelles incluent l'anglais, le français, le japonais, etc., tandis que les langues artificielles incluent les langages de programmation. Le texte, étant la forme de données la plus volumineuse existante, est une source importante d'informations une fois qu'on comprend comment le traiter.
Les composants des données textuelles sont les paragraphes, les phrases et les mots, chaque composant étant organisé selon des règles grammaticales. Par exemple, "Les gens en Europe aiment le sport." est un texte contenant des phrases et des mots. La fin d'un paragraphe est marquée par un retour chariot, et une phrase se termine par un signe de ponctuation.
Il existe différents formats de données textuelles. Le texte brut est le format le plus simple et le plus couramment utilisé, mais il est difficile à traiter en raison de son caractère non structuré. Un autre format est XML, qui est semi-formel et auto-descriptif, facilitant le traitement des données. Le format PDF est également couramment utilisé, capable de stocker à la fois du texte et des images de manière indépendante des logiciels et matériels sous-jacents.
Par exemple, ces données d'e-mail stockées dans un format XML :
<Email>
<To>Jean</To>
<From>Samuel</From>
<Subject>Réunion annulée</Subject>
<Content>Cher Jean ! La réunion déjà communiquée a été annulée. La nouvelle réunion
sera annoncée ultérieurement.</Contents>
</Email>
Les sources de données textuelles incluent les bibliothèques en ligne, les réseaux sociaux, le Web (y compris les blogs et Wikipédia), et les ensembles de données linguistiques utilisés en traitement automatique des langues.
- Bibliothèques en ligne : Les bibliothèques numériques en ligne sont l'une des principales sources de données textuelles. Aujourd'hui, la copie électronique d'un livre est devenue un élément essentiel, au même titre que la copie papier. Les bibliothèques en ligne contiennent une grande partie des données textuelles.
- Médias sociaux : Les médias sociaux sont aujourd'hui la principale source de données textuelles. Ces données offrent de nombreuses possibilités d'effectuer différentes tâches d'exploration de texte, par exemple l'analyse des sentiments, l'évaluation des produits, le marketing numérique, etc. La plupart de ces plateformes fournissent également des sources permettant d'accéder à ces données et de les analyser à l'aide d'API. Une majorité de ces plateformes fournissent également des sources permettant d'accéder à ces données et de les analyser à l'aide d'API, notamment les API de Twitter, YouTube, Facebook, etc.
- Le web : Le Web est également l'un des principaux contributeurs de données textuelles. Nous pouvons conclure avec certitude que presque toutes les pages Web contiennent une sorte de texte qui peut être utilisé comme source pour effectuer différentes tâches d'exploration de texte. Une quantité suffisante de données textuelles sur le web provient des blogs. De nos jours, il existe des centaines de milliers de blogs sur presque tous les sujets, qui peuvent être exploités pour des tâches d'exploration de texte liées à un domaine. Une autre source importante de données textuelles est Wikipédia, qui a également été utilisée comme source de données textuelles dans de nombreuses tâches liées à l'intelligence artificielle et à l'exploration de texte.
- Les ensembles de données linguistiques : Les ensembles de données linguistiques (corpus) constituent une autre source d'information, en particulier depuis l'émergence du traitement du langage naturel. Il existe un certain nombre de corpus linguistiques contenant des informations telles que des étiquettes POS (Part-of-Speech), des reconnaissances d'entités, des strophes, etc.
English |
Français |
Hello, how are you? | Bonjour comment allez-vous? |
Good bye! | Au revoir! |
This is a car | C’est une voiture |
Please let me know when you arrive at London, so that I may come to receive you | S’il vous plaît, prévenez-moi de votre arrivée à Londres, afin que je puisse venir vous recevoir. |
We will be happy if you join us at the birthday party | Nous serons heureux si vous nous rejoignez à la fête d’anniversaire |
I am going for a week’s trip to the United States |
Je pars en voyage d’une semaine aux Etats-Unis |
This will definitely not impact the performance | Cela n’aura certainement pas d’impact sur les performances |
Le text mining (fouille de texte) consiste à utiliser divers outils pour extraire des informations des données textuelles non structurées. Ce processus inclut la collecte des données appropriées, la prétraitement des données pour les structurer, le traitement et l'analyse des données pour extraire des informations pertinentes, et enfin, la visualisation des informations extraites. Le text mining diffère du data mining en raison du format non structuré des données qu'il traite, nécessitant des étapes de prétraitement spécifiques pour convertir les données en caractéristiques appropriées pour l'analyse.
- Collecte des données : Ce processus consiste à collecter les données appropriées en fonction des besoins ; par exemple, pour traiter les données relatives au sport, les blogs sportifs peuvent être l'une des sources de données appropriées. De même, pour résumer certaines situations politiques actuelles, les journaux peuvent être considérés comme des sources de données.
- Prétraitement des données : Il convient de noter que les données collectées peuvent ne pas se présenter sous la forme appropriée pour commencer à les traiter. Nous devrons appliquer diverses étapes de prétraitement pour convertir les données dans un format approprié afin que les étapes d'analyse ultérieures puissent être réalisées.
- Traitement et analyse des données : Il s'agit de l'étape centrale qui concerne le traitement des données formatées et l'extraction des informations pertinentes, par exemple les modèles d'intérêt. Diverses tâches d'exploration de texte, par exemple la classification, le regroupement et l'analyse des sentiments, peuvent être effectuées à ce stade.
- Visualisation des données : Une fois les informations extraites, elles peuvent être présentées à l'aide de différentes techniques de visualisation des données adaptées à la nature des informations. Plusieurs techniques de visualisation de texte sont disponibles.