Pôles de compétitivité
Rechercher :

Projet abouti

TIC

Doxa : des outils nouveaux pour l’analyse de l’opinion sur internet en temps réel

Cap Digital Paris Region, 

Des chaines de traitement pour l’analyse et le suivi des opinions et sentiments exprimés dans conversations sociales sur internet, pour la veille d’opinion, la connaissance du consommateur et du citoyen et la fidélisation de la clientèle.

Le pôle de compétitivité Cap Digital a labellisé le projet Doxa qui a ensuite bénéficié d’une subvention dans le cadre du Fonds unique interministériel (FUI).

Contexte du projet

Le marché de l’analyse des opinions est en pleine mutation du fait de la globalisation et de l’ouverture des marchés. Les nouveaux usages d’internet (web 2.0) facilitent le développement de ces usages et les nouveaux modes de recueil d’informations. Ce marché est doté d’un très fort potentiel. A titre d’exemple, les entreprises sont de plus en plus consommatrices de ces informations. Celles-ci permettent en effet une meilleure connaissance des clients, de leurs attentes, en vue d'adapter et de personnaliser au mieux les services ou les produits qu’elles proposent.

Des millions d’internautes se rassemblent quotidiennement sur internet pour partager leurs opinions et préférences. Ils constituent des sources d’information spontanées et gratuites pour acquérir au jour le jour des connaissances sur les consommateurs, pour anticiper leurs besoins et pour améliorer au final la relation entreprise/client. S’il existe aujourd’hui pléthore de solutions pour analyser les opinions, celles-ci restent toutefois très limitées, en raison de l’approche statistique qu’elles favorisent ou des petites tailles relatives des échantillons étudiées. De plus, leurs capacités d’analyse linguistique sont peu adaptées.

Les objectifs

L’ambition du projet DoXa était de surmonter les carences des solutions d’analyses du marché. Il portait son effort notamment sur le traitement de grands volumes de données, la prise en compte de données hétérogènes et de qualité « médiocre » au plan linguistique, l’élaboration et la prise en compte d’une typologie des opinions et sentiments allant au-delà de la typologie à deux valeurs (positif/négatif).

En vue de respecter les contraintes juridiques et éthiques liées à la collecte et au traitement de données diffusées par les personnes physiques sur internet, le projet s’est appuyé sur les recommandations de la CNIL, relatives à la collecte, au traitement et au stockage de données à caractère personnel.

Les partenaires du projet

  • Thalès est le porteur du projet
  • EDF
  • Pertimm (PME)
  • Opinion Way (PME)
  • ILObjects (PME)
  • Laboratoire informatique de Paris 6 (LIP6),
  • Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI/CNRS),
  • L'Institut d'électronique et d'informatique Gaspard-Monge (LIGM) de l’Université Paris-Est Marne-la-Vallée
  • ChArt, laboratoire sur la cognition et les usages.
  • Laboratoire des usages en technologies de l'information numérique (LUTIN)

Les partenaires ont en particulier apporté leur expertise sur :

  • La recherche d’information sémantique (Pertimm) ;
  • La gestion des ressources linguistiques (IGM, ARISEM) ;
  • La modélisation des opinions et sentiments (Thalès, LIGM, ARISEM, LIP6, LIMSI)
  • L’extraction d’informations - thématiques et opinions/sentiments - (LIGM, ARISEM, Thalès) ;
  • La classification de texte selon les opinions et sentiments exprimés (LIP6, ChART, LUTIN) ;
  • La gestion des ressources linguistiques (LIGM, ARISEM) ;
  • La synthèse des connaissances (Thalès, EDF, IlObjects, LIP6) ;
  • L’évaluation des méthodes et des usages (LIMSI, Chart) ;
  • L’intégration logicielle (Thalès).

Les utilisateurs finaux du projet (Opinion Way et EDF) ont été sélectionnés selon un ensemble de critères, parmi lesquels : besoins et usages innovants, besoins applicatifs génériques et généralisables à d’autres types d’utilisateurs, positionnement sur des marchés compétitifs.

Les premières retombées du projet

  • Les produits issus des travaux de R&D sont des chaînes de traitement des conversations sociales développées pour des démonstrations, à partir des technologies et ressources implémentées tout au long du projet. Exemples de produits : un modèle de catégorisation sémantique des opinions et en sentiments, des ressources lexicales en français.

Par ailleurs, des données nouvelles totalement ouvertes (en « open Source ») sont désormais disponibles :

  • Un serveur d'évaluation des textes annotés en opinions et sentiments  www.sourceforgenet.com/doxaes/wiki/Home  

Ces résultats sont importants pour la communauté française de l’analyse des opinion dans la mesure où les ressources en langue française étaient quasi inexistantes.  

  • Publications scientifiques : 32 dont 22 à l’international
  • Thèses : 3
  • Emplois créés : 4 dont 3 CDD et 1 CDI
  • Perspectives : le projet a conduit à l'évolution des solutions logicielles des partenaires industriels tout en leur permettant d’affirmer leur positionnement dans la communauté de l’analyse des opinions et de monter de nouveaux projets collaboratifs. Par exemple :
    • Pépite : fouille d'opinion et extraction d'information pour les fonds d'investissement (FUI14) labellisé par les pôles Finance Innovation et Cap Digital
    • ASARE : agrégateur sémantique pour l'analyse de risques épidémiologiques 
    • Opinions, projet Eurostars et Empathic products projet ITEA2
    • des collaborations privilégiées entre Arisem et le LIGM pour la construction des ressources opinions et sentiments et la création d’un laboratoire commun Clear par le LIP6 et Thalès.  

Les pôles de compétitivité
DATAR et Ministère de l'Économie, des Finances et de l'Industrie

http://competitivite.gouv.fr/index.php?id=576