Questions sur la sémantique

Notre métier étant très technique, nous tentons ici d'apporter des réponses aux questions les plus fréquentes. N'hésitez pas à nous contacter pour obtenir de plus amples informations.

Qu'est-ce que l'analyse sémantique ?

En informatique, l'analyse sémantique est une technique d'interprétation automatique des textes écrits en langue naturelle, c'est à dire tels qu'on les trouve dans les documents rédigés par et pour les humains. Cela permet à l'ordinateur de « comprendre » ces textes pour y collecter de l'information, pour classer les documents, pour en faciliter la recherche, etc.

La particularité de l'approche sémantique, par rapport aux méthodes à base de mots-clefs, est que le logiciel est doté de réelles compétences linguistiques et ontologiques. Cela lui permet de raisonner sur le sens des mots et des phrases (au lieu de compter le nombre d'apparition de tel ou tel mot-clef), et aussi d'exploiter et d'augmenter certaines connaissances sur le « monde ». C'est pourquoi cette approche est traditionnellement classée dans le domaine de l'intelligence artificielle.

Prenons comme exemples les trois phrases ci-dessous :

  1. « Le service client de la société X n'est jamais disponible »
  2. « Concernant le SAV, je n'ai jamais eu de problème avec eux »
  3. « À part le service après-vente, ils sont très compétents »

Dans la première, notre moteur saura détecter qu'il s'agit bien d'une opinion négative, en dépit de la connotation positive du mot « disponible ». Le phénomène inverse se produit dans la seconde phrase, où le moteur détectera bien une opinion positive et portant sur la même cible ("SAV" = "service client", "eux" = "société X"). Et dans la troisième, le moteur saura détecter que l'opinion porte sur tout sauf le service après-vente, etc.

Ce ne sont que quelques exemples relativement simples, mais ils suffisent à percevoir en quoi l'approche sémantique est incontournable pour analyser correctement des textes réels. Cela reste toutefois une technologie de pointe, qui mobilise des compétences et un patrimoine logiciel extrêmement complexes et spécifiques, ce qui explique que les approches à base de mots-clefs restent encore très répandues.

Qu'est-ce que le text-mining ?

Le text-mining, aussi appelé fouille de textes, est l'une des principales applications de l'analyse sémantique. Elle consiste à extraire automatiquement de l'information structurée à partir de textes. Un exemple factice, mais néanmoins parlant, consisterait à remplir automatiquement un formulaire d'état civil à partir d'une biographie rédigée en toutes lettres.

L'information dite non structurée est celle de tous les documents sur support numérique, qui ne peuvent a priori être utilisés que par l'homme. Il s'agit principalement des documents textes et multimédias, qui représentent dans les entreprises jusqu'à 90% des informations, et presque 100 % sur le Web. Bien-sûr, la plupart documents ne sont pas à proprement parler « déstructurés », puisqu'ils sont porteurs de sens à travers une forme organisée. Mais cette forme est celle de la langue naturelle, qui reste inaccessible à l'immense majorité des logiciels, qui ne peuvent travailler qu'a partir d'un modèle de données figé.

En effet, les processus de calcul constitutifs de l'informatique « standard » s'appuient sur des logiques de relation formelles, que ce soit dans leurs algorithmes, dans les bases de données classiques (dites relationnelles ou SGBDR) ou dans les modèles de données plus récents comme ceux du Web sémantique. Si, dans ce cas, on parle « d'information structurée », c'est que l'ordinateur peut interagir avec les données : il connaît le langage que l'on va utiliser, la façon de les stocker, et sait donc comment les transformer. En d'autre termes, cette information est « calculable » par le premier ordinateur venu.

Quand on parle « d'information non-structurée », c'est que la logique formelle de manipulation des « données » (le texte, les images, etc.) échappe à l'ordinateur « lambda ». C'est ici qu'interviennent les processus d'analyse sémantique, qui sont capables de « calculer » à partir du texte, et de transformer une partie du sens qu'ils portent en informations structurées. Ces dernières deviennent alors exploitables par n'importe quel logiciel habituel, et peuvent réintégrer les systèmes d'information traditionnels.

Il faut noter que si le text-mining constitue probablement l'application principale de l'analyse sémantique, cette dernière possède bien d'autres champs d'application : recherche d'informations, extraction de terminologie, résumé automatique, etc.

À qui s'adresse cette technologie ?

Nos solutions s'adressent à toute entreprise ou collectivité qui souhaite optimiser son processus de traitement de l'information non structurée. Par exemple :

  • Si votre métier implique de collecter et/ou produire des informations ou des données : nous pouvons vous aider à automatiser le processus de valorisation des informations non structurées, à augmenter le volume de données traitées, à générer automatiquement de nouvelles sources de données, etc.
  • Si votre métier consiste à qualifier des données pas ou partiellement structurées : nous pouvons vous aider à automatiser en tout ou partie le processus de qualification afin d'en réduire les coûts et/ou d'augmenter votre taux de production.
  • Si votre métier exige d'opérer une veille régulière sur une thématique bien définie : nous pouvons automatiser la collecte d'informations afin d'obtenir une vision plus rationnelle et plus exhaustive tout en réduisant les coûts.
  • Si vous souhaitez augmenter la valeur ajoutée de vos produits et services, en tant qu'éditeur de logiciel ou si votre métier passe par la gestion documentaire, Internet, ou la diffusion d'information en général : nous pouvons vous aider à tirer profit des flux d'informations non structurées afin d'apporter de nouveaux services à vos clients ou de nouvelles fonctionnalités à vos produits.

Pourquoi choisir Noopsis ?

  • L'expertise : notre coeur de métier, l'analyse sémantique, ne s'improvise pas. Notre savoir-faire est solidement forgé par des années d'expérience en laboratoire et dans l'industrie.
  • La qualité : fruit d'un effort considérable en recherche et développement, notre moteur d'analyse sémantique est l'un des plus puissants du marché. Il a également démontré une robustesse à toute épreuve, qui tend vers le « zéro maintenance ».
  • La réactivité : nous sommes une entreprise jeune et dynamique, et pouvons nous adapter au plus près aux besoins spécifiques de chaque client.
  • L'honnêteté et la confiance : nous ne transigeons pas sur ces valeurs essentielles, qui sont pour nous les racines d'un projet réussi.

Comment mettre en place un projet sémantique ?

L'étape la plus importante consiste à définir le perimètre fonctionnel du projet. C'est une phase qui demande beaucoup d'attention et d'interactions avec le client afin de répondre précisément à différentes questions telles que :

  • quel sera le rôle du sytème dans le processus qui l'englobe ?
  • quelles sont les informations à obtenir ou les traitements à réaliser ?
  • comment peut-on accéder aux documents à analyser ?
  • sous quelle forme doit-on restituer l'information ?
  • comment valider les résultats obtenus ?
  • quel est le degré d'autonomie souhaité ?
  • etc.

Une fois les spécifications établies, nous nous chargeons de paramétrer le moteur sémantique et éventuellement de développer des modules spécifiques. La mise en production du système s'opère généralement par la mise en place d'un web-service ou d'une application client-serveur complète. Dans les deux cas nous proposons un déploiement en mode SaaS (Software as a Service), ou un hébergement de la solution dans le système d'information du client.

Quel est le rapport avec le web sémantique ?

Le « problème » du Web est qu'il est massivement constitué de textes destinés à la lecture humaine. Dans ce contexte, le rôle de l'ordinateur se limite à la gestion et à l'affichage des pages, ainsi qu'à la recherche dite « plein-texte » (type Google). Devant ce constat, l'idée du Web sémantique est d'ajouter aux pages Web des meta-informations, c'est à dire des données sémantiques structurées et normalisées. De cette manière les pages Web deviennent calculables, et donc plus accessibles aux ordinateurs pour des traitements élaborés (cf. plus haut).

À première vue, cette approche peut paraître contradictoire avec l'analyse sémantique, puisque les informations seraient déjà disponibles sous forme structurée. Mais en réalité il n'en est rien, car le Web sémantique ne s'intéresse pas au problème de la production des meta-données, et il est de toute façon inimaginable de « traduire » en balises sémantiques toutes les informations textuelles qui sont produites à chaque instant sur le Web. La « sémantisation » automatique de la langue naturelle reste donc une problématique incontournable, et le sera même d'autant plus que le Web sémantique prendra de l'ampleur.

Finalement, les deux approches s'avèrent très complémentaires. En effet, l'univers du Web sémantique a produit des outils et des standards extrêmement utiles pour représenter et manipuler les données sémantiques, ainsi que de très grandes quantités de données sémantiques génériques et ouvertes. Autant d'outils qui sont exploitables pour améliorer les processus d'analyse de la langue naturelle, démarche dans laquelle Noopsis est précurseur puisque les techniques du Web sémantique sont nativement intégrées dans notre plate-forme.