Aujourd’hui, les données à disposition des entreprises ne sont plus confinées dans leurs systèmes informatiques opérationnels. Elles proviennent de sources variées et existent dans des formes hétérogènes: commentaires sur les réseaux sociaux, données IoT, images, vidéos etc. Etre capable de les analyser et d’en faire du sens permet une meilleure compréhension de son environnement et donc d’offrir de meilleurs produits et services aux clients.

L’un des domaines les plus intéressants est ce que l’on appelle le traitement automatique du langage naturel (Natural Langage Processing – NLP). Celui recouvre un vaste champ d’applications que l’on retrouve dans nos usages et outils du quotidien:

  • Traduction automatique,
  • Correcteurs orthographiques,
  • Prédiction de texte,
  • Sentiment analysis,
  • etc.

Naturellement DATANALYSIS s’est intéressé à ce sujet et s’est lancé dans la réalisation d’une application de prédiction de texte (ce type d’applications peut être retrouvré par exemple lorsque l’on utilise un moteur de recherche ou lorsque l’on tape un message sur un smartphone).

Grâce au langage R, à  shinyapps et au corpus de données HC Corpora (articles de journaux, de blogs et tweets) mis à disposition gratuitement, DATANALYSIS a développé une application essayant de prédire le mot suivant le plus probable pour compléter une phrase (en anglais) saisie par un utilisateur.

Bien évidemment, DATANALYSIS n’étant pas Google et ayant réalisé cet exercice dans l’objectif d’approfondir le sujet, quelques limitations évidentes sont à noter.

Afin de garantir de bonnes performances d’utilisation (génération des prédictions dans des délais de l’ordre de la seconde) et de respecter les limitations inhérentes à shinyapps (taille des applications mise en ligne notamment), il a été nécessaire de:

  • travailler à partir d’un échantillon du corpus de données initial,
  • de limiter la taille des modèles générés en ne conservant que les n-grams ayant plus d’une occurrence dans l’échantillon de texte et les trois meilleures propositions pour chaque modèle,
  • d’utiliser une méthode d’interpolation simple pour appréhender les associations de phrases inconnues.

Ces limitations impactent la performance du modèle. Toutefois, avec les ressources nécessaires, il serait très simple de l’améliorer significativement.

En attendant, n’hésitez pas à essayer cette application réalisée par DATANALYSIS! Vous y trouverez plus d’informations sur son fonctionnement et les concepts qui ont guidés son développement.

Quel est le mot suivant?

Découvrez le en cliquant ici!

DATANALYSIS serait également ravi de poursuivre la discussion sur le traitement automatique du langage naturel et ses applications, ou sur tout autre sujet lié à l’analyse des données. N’hésitez donc pas à nous contacter!