Comme indiqué précédemment, les systèmes d'exploration de texte ne peuvent pas traiter le texte brut en raison de sa nature non structurée. Le seul moyen d'alimenter un algorithme d'exploration de texte est de convertir le texte dans un format approprié ou au moins sous la forme de mots simples afin que l'algorithme puisse comprendre ces mots. Le processus d'indexation de texte est la méthode qui consiste à convertir les phrases textuelles en mots ou en jetons valables pour le traitement par un algorithme. La figure 1.1 illustre le processus d'indexation du texte. Nous allons maintenant examiner chacun de ces processus un par un.

La tokenisation

La tokenisation est le processus de conversion d'une phrase en mots isolés. Chaque mot est appelé un jeton. Cela est nécessaire car chaque phrase est formée d'un ensemble de mots où chaque mot joue un rôle spécifique pour donner une sémantique appropriée à la phrase. Ainsi, avant d'introduire une phrase dans l'algorithme d'extraction, il est nécessaire de convertir la phrase en jetons.

Prenons l'exemple suivant : Avant le début de l'embarquement, vous devez vous assurer que vous avez acheté toutes les commodités nécessaires. Avant d'introduire cette phrase dans l'algorithme d'extraction, nous devons séparer chaque mot en un jeton. C'est à cette étape que la tokenisation est utile.

Dans le prochain chapitre, nous présenterons également la mise en œuvre de cette étape. Les jetons de l'exemple susmentionné seront les suivants : 'Avant', 'le', 'embarquement', 'commence', ',', 'vous', 'devriez', 'assurez', 'que', 'vous', 'avez', 'acheté', 'toutes', 'les', 'commodités', 'nécessaires', '.'

De la même manière, considérez la phrase suivante : "Un chat poursuit un rat. Il était dans la maison." L'exemple ci-dessus sera symbolisé comme suit : 'Un', 'chat', 'poursuit', 'un', 'rat', '.', 'Il', 'était', 'dans', 'la', 'maison', '.'

Il convient de noter que dans toutes les phrases ci-dessus, la tokenisation est effectuée sur la base du caractère "espace". Cela signifie que le compilateur identifiera deux mots comme des jetons distincts s'il y a un espace entre ces mots. Cependant, il existe de nombreuses langues, par exemple le chinois et le japonais, dans lesquelles le caractère "espace" n'est pas utilisé. Dans toutes ces langues, le tokenizer est spécialement formé pour tokeniser les mots.

Dérivation

Une fois la tokenisation effectuée, nous obtenons les mots uniques qui composent la phrase entière. Cependant, dans la majorité des cas, les mots doivent être convertis en racines afin d'obtenir la sémantique exacte. En anglais, il est courant que les mots ne soient pas utilisés dans leur forme racine. Prenons l'exemple de la phrase suivante : "Je mange des bananes." Les jetons seront alors "Je", "mange", "des" et "bananes".

Cependant, nous devons convertir les mots "mange" et "bananes" à leur forme racine afin d'obtenir leur sémantique réelle. Ainsi, le mot "mange" sera converti en "manger" et le mot "bananes" sera converti en "banane". La figure ci-dessous illustre le processus de troncature (Fig. 1.2).

Normalement, les composants grammaticaux suivants sont convertis en mots racines :

  • Noms
  • Verbes
  • Adjectifs

Dans le cas des noms, nous devons convertir le pluriel en nom singulier. Par exemple, considérons la phrase suivante : "Les étudiants s'inscriront au séminaire." Dans l'exemple ci-dessus, le nom pluriel "étudiants" sera converti en "étudiant". De même, les verbes doivent être convertis en leur racine. Par exemple, considérons la phrase suivante : "Jean mange les bananes." Dans la phrase ci-dessus, le mot "mange" doit être converti en "manger", le "e" sera donc ajouté.

Voici quelques exemples de mots convertis en leur racine :

  • Applique → Appliquer
  • Systèmes → Système
  • Étonnamment → Étonner
  • Embarquement → Embarquer
  • Généralisation → Généraliser
  • Plus simple → Simple
  • Précise → Préciser
  • Va → Aller
  • Lecture → Lire

Suppression des mots vides

Parfois, dans une phrase, certains mots n'apportent rien à la sémantique de la phrase, par exemple "un", "le" et ",". Par conséquent, avant de traiter une phrase, tous ces mots sont supprimés. C'est ce qu'on appelle la suppression des mots vides.

Prenons l'exemple de la phrase suivante : "Johan prendra un train pour New York après avoir reçu l'autorisation du bureau." Dans la phrase ci-dessus, les mots "un", "pour" et "du" sont des mots qui ne contribuent pas beaucoup à la sémantique de la phrase, et nous pouvons donc les supprimer en toute sécurité. Il convient de noter qu'il n'existe pas de mécanisme approprié pour décider quel mot doit être un mot vide. Afin de supprimer les mots vides, un modèle est correctement entraîné en utilisant différents mots comme mots vides. Cela se fait normalement en préparant une liste de mots vides sous la forme d'un corpus. Il convient de noter que l'élimination des mots vides et le troncage peuvent être intervertis, c'est-à-dire que l'une ou l'autre étape peut être réalisée avant l'autre.

Pondération des termes

Chaque terme ou token a une importance spécifique. Par exemple, nous pouvons déterminer la catégorie d'un document en nous basant sur les tokens utilisés dans ce document. La pondération des termes est le processus qui consiste à attribuer des poids pertinents aux jetons en fonction de leur importance dans la phrase. Différentes mesures peuvent être utilisées à cet effet.

L'une des méthodes les plus simples de pondération des termes est la mesure appelée fréquence des termes (TF). La fréquence des termes attribue des poids en fonction de l'occurrence d'un terme dans un document. Toutefois, le problème de cette méthode peut être la surestimation ou la sous-estimation d'un terme en fonction de la taille du document.

Une autre mesure peut être la fréquence relative des termes, qui se réfère au ratio d'un terme dans un document par rapport au terme maximal. Un autre terme important utilisé pour mesurer la fréquence ou la rareté d'un mot dans un corpus ou un ensemble de documents est la fréquence inverse des documents (IDF). Elle est calculée en divisant le nombre total de documents par le nombre de documents contenant le terme et en prenant le logarithme.

Mathématiquement :

\( IDF_{t}=log⁡(\frac{N}{n}) \)

Ici, N est le nombre total de documents dans un corpus et n représente le nombre de documents qui contiennent le terme t.

La formule ci-dessus montre que les termes qui apparaissent dans un plus grand nombre de documents auront une valeur plus faible d'IDF et vice versa. En multipliant à la fois TF et IDF, on obtient la mesure appelée fréquence terme-fréquence inverse de document (TF-IDF). Plus la valeur de TF-IDF est élevée, plus le terme est pertinent.

Ainsi, TF-IDF combine à la fois la fréquence d'un terme dans un document et l'inverse de la fréquence de ce terme dans le corpus, permettant de pondérer les termes de manière plus équilibrée.