Distribution

La distribution signifie l'existence de documents de différents types dans une collection de documents. Avant d'examiner les différents concepts de distribution, il convient d'abord de définir ce qu'est un concept.

Dans un système d'exploration de texte, chaque document est associé à une catégorie (étiquette) qui spécifie normalement la nature du document ; par exemple, un document décrivant un article sur le football peut être classé dans la catégorie "Sports". De même, un document contenant un événement politique d'actualité peut être classé dans la catégorie "Politique".

En outre, il convient de noter qu'un concept peut contenir un certain nombre de sous-concepts ; par exemple, le concept "Politique" peut être un ensemble des concepts "Politique locale" et "Politique internationale", etc. Un document correspondant au concept "Politique locale" fera également partie du concept "Politique".

La Sélection des concepts

Considérons ce qui suit :

Si

  • D = Ensemble de documents 
  • C = Ensemble de concepts

Alors D/C sera l'ensemble des documents de D qui sont liés à tous les sous-concepts de K

Pour un document étiqueté avec un seul concept c ∈ C, tous les documents étiquetés avec c seront écrits comme D/c. Ainsi, D/Politique contiendra tous les documents qui correspondent à D/Politique locale ou D/Politique internationale.

Proportion de concepts :

Si

  • D = Ensemble de documents
  • C = Ensemble de concepts

Alors F(D/C) sera le rapport entre les documents étiquetés avec C et le nombre total de documents, c'est-à-dire : 

\( F (D/C) = \frac{D/C}{D} \)

Proportion de concepts conditionnels :

Si

  • D = Ensemble de documents
  • C1 = Ensemble de concepts
  • C2 = Autre ensemble de concepts

Alors F(D/C1|C2) = F(D/C2|C1) = Ensemble de documents étiquetés avec les concepts C1 et C2. 

Ensembles de concepts fréquents

Un ensemble de concepts fréquents comprend l'ensemble des concepts dont les documents apparaissent ensemble un nombre alpha de fois. Ici, alpha est la valeur seuil qui peut être fournie par les utilisateurs. La sélection d'un ensemble de concepts fréquents est utile dans diverses tâches d'exploration de texte, par exemple dans l'exploration de règles d'association.

Dans l'exploration de données conventionnelle, l'analyse du panier de la ménagère est le meilleur exemple d'exploration de règles d'association. L'algorithme Apriori est le plus célèbre des algorithmes d'exploration de règles d'association.

Associations

La sélection des concepts fréquents permet de trouver les règles d'association. Une règle peut prendre la forme suivante : A B

La règle ci-dessus stipule que les transactions qui contiennent le "A" contiendront également le "B". Dans le contexte de l'exploration de texte, on peut dire que les documents étiquetés avec le concept "A" peuvent également être étiquetés avec le concept "B". 

Défis du Text Mining

Les algorithmes de text mining sont confrontés à plusieurs défis qui ne sont pas forcément présents dans le cas des algorithmes traditionnels de data mining.

La principale difficulté réside dans la nature non structurée des formulaires de données et des données d'entrée des algorithmes d'exploration de texte. Dans les algorithmes d'exploration de données classiques, les données d'entrée peuvent contenir des valeurs manquantes, ambiguës ou dupliquées ; cependant, toutes les données ont normalement une structure bien définie.

Prenons par exemple l'ensemble de données "Étudiants" présenté dans le tableau suivant, qui contient les enregistrements des élèves d'une classe d'école. Notez que les notes de physique de Candide ne sont pas connues et peuvent poser des problèmes aux algorithmes utilisant cet ensemble de données ; cependant, l'ensemble de données a une structure bien définie. 

Etudiants Mathématiques Physique Chimie
Edith 12 13 12
Johan 12 16 12
Elise 12 12 12
Candide 12 4  
Martin 12 12 10

L'algorithme peut connaître à l'avance la sémantique des données, par exemple, la première colonne contient le nom de l'étudiant, la deuxième colonne contient les notes en mathématiques, etc. En outre, l'algorithme peut également disposer d'informations exactes sur le format des données. Toutefois, ce n'est pas toujours le cas pour les données textuelles.

Prenons par exemple la phrase suivante : Pour se connecter au système, l'utilisateur doit fournir un nom d'utilisateur et un mot de passe valides. Voici maintenant les différentes façons d'écrire la même phrase :

  • Format-1 : L'utilisateur doit fournir un nom d'utilisateur et un mot de passe valides pour se connecter au système
  • Format-2 : L'utilisateur devra fournir un nom d'utilisateur et un mot de passe valides pour se connecter au système
  • Format-3 : Pour se connecter au système, l'utilisateur devra fournir un nom d'utilisateur et un mot de passe valides
  • Format-4 : L'utilisateur ne peut pas se connecter au système tant qu'il n'a pas fourni un nom d'utilisateur et un mot de passe valides
  • Format-5 : Un nom d'utilisateur et un mot de passe valides sont obligatoires pour se connecter au système

Notez qu'il ne s'agit que d'un exemple d'écriture d'une phrase en français dans différents formats, qui véhiculent tous le même sens. Il existe des centaines de langues, et chacune a ses propres formats et sa propre grammaire.

La nature non structurée des données textuelles signifie que le même ensemble de données ne peut pas (du moins sans prétraitement) être utilisé pour deux algorithmes différents. Pour surmonter ce problème, il faut procéder à de nombreux prétraitements, ce qui signifie que des tâches supplémentaires doivent être effectuées par le système.

Outre les erreurs de syntaxe, par exemple les fautes de grammaire ou d'orthographe, les ambiguïtés sont les autres problèmes courants auxquels un algorithme d'exploration de texte doit faire face.

Prenons l'exemple de la phrase suivante : Jean a vu un garçon avec un télescope. 

La phrase ci-dessus signifie-t-elle que lorsque Jean a vu le garçon, il (l'autre garçon) avait un télescope ? Ou signifie-t-elle que Jean avait un télescope, à l'aide duquel il a vu le garçon ?

Voici quelques exemples d'ambiguïtés qui peuvent exister dans une phrase :

  • Exemple-1 : L'utilisateur fournira un nom d'utilisateur et un mot de passe d'au moins huit caractères. Ambiguïté : La condition des huit caractères s'applique-t-elle au nom d'utilisateur, au mot de passe ou aux deux ?
  • Exemple-2 : Le système sera convivial. Ambiguïté : Qu'entend-on par "convivial" ? Il convient de noter que dans le cas de l'ensemble de données sur les étudiants, chaque valeur avait une sémantique fixe et sans ambiguïté, ce qui n'est pas forcément le cas dans le contexte de données textuelles.
  • Exemple-3 : La longueur approximative sera de 3 cm. Ambiguïté : Que signifie le mot "approximatif" ? Quelle sera la longueur exacte ?
  • Exemple-4 : Prenez votre temps, mais sachez que nous devrons respecter le délai. Ambiguïté : La phrase contient deux parties et les deux parties présentent des scénarios différents.
  • Exemple 5 : Parlez fort, mais ne faites pas de bruit. Ambiguïté : Que signifie l'expression "parler fort" ? Et dans quelle mesure une personne doit-elle parler fort pour ne pas faire de bruit ?