La qualité des données et le Big Data (2/4) – Exigences

db_comitLes exigences supplémentaires du big data

Le niveau requis en statistiques sera beaucoup plus élevé pour le big data tant pour l’analyse première (profilage) que pour élaborer des algorithmes. Par exemple, TF-IDF (term Frequency -Inverse Document Frequency) est une technique élémentaire en text mining qui n’existe pas en profilage. On y utilisera plutôt une distance de Levenshtein, qu relève déjà du profilage avancé.

Ensuite la palette de techniques en big data est beaucoup plus vaste. Il faut des techniques pour chaque type de données. Il faut développer des techniques lorsqu’on mélange les types de données.

La performance devient encore plus importante lorsque certaines techniques doivent donner une réponse en moins d’une seconde voire en ms. Par exemple lorsqu’il s’agit d’analyser et de réagir à des flux lors d’échanges entre établissement financiers, ou en bourse ou pour sauver une vie à l’hôpital. Dans les entreprises, beaucoup de profilage reste périodique, même si certaines entreprises ont mis en place des solutions qui vérifient et nettoient les données en temps réel.

Le big data requiert de développer des algorithmes complexes, comme optimiser les transactions boursières pour profiter d’une configuration particulières des données, ou lorsqu’il s’agit d’optimiser la recette d’un vol entre Paris et New York.  Le data scientist va maitriser de nombreux langages, le python, le C++, le Perl , R, Java et tout une palette d’outils comme Hive, Mahout, Hadoop et beaucoup d’autres ainsi que des approches algorithmiques avancées.

En profilage classique, tout est fait pour l’outil soit utilisable par un utilisateur non informatique mais expert dans la donnée, sa signification, ses valeurs. Tout au plus saura-t-il faire du SQL. Quand l’informatique intervient, ce sera très souvent via du SQL.

En profilage classique on connait bien les données à force de les cotoyer. En big data, de nombreuses données seront nouvelles. La connaissance se périme plus vite. Les paramètres sont plus forts et plus nombreux. Il faut savoir évoluer dans un océan  d’incertitude et d’indétermination.

Si une seule caractéristique devait être retenue, ce serait peut-être la nécessité de distinguer le bruit du signal dans le big data et pour tout type de données. C’est ainsi que Nate Silver s’est fait un nom (http://www.fivethirtyeight.com/) lorsqu’il y a su prédire correctement les résultats des dernières élections américaines à 100%. Il n’avait atteint que 98% en 2008.

On pourrait visualiser le profilage classique en bas de l’escalier de la Tour Eiffel et les techniques big data à son premier étage.

En big data la quantité et la richesse permettent de rééquilibrer la balance. La multiplicité des sources permet de les corroborer et d’en dégager des corrélations. La quantité aussi. Mais la quantité permet surtout d’appliquer des techniques probabilistes, comme dans l’étude des gaz parfaits et des fluides. Les lois sont d’une autre nature que la mécanique newtonienne, mais elles n’en sont pas moins applicables. En voici deux anecdotes.

Watson et son cortège d’ingénieurs qui l’ont construit et accompagnés pendant tout le match Jeopardy ! en 2011 contre deux anciens vainqueurs Rutter et Jennings a utilisé des techniques heuristiques et d’intelligence artificielle ainsi qu’un accès à toute une documentation en ligne titanesque comme l’entièreté de Wikipedia. Deep Blue et toute une équipe d’ingénieurs ont utilisé des techniques heuristiques et probabilistes pour battre Garry  Kasparov en 1996.

Recapitulatif des différences entre qualité de données traditionnelles vs qualité de données big data

Ce tableau est fortement inspiré du livre de Sunil Soares « Big Data Governance ».

Dimension

QD tradi

QD big data

Fréquence de traitement Par lot périodique (hebdo, mensuel) Temps réel et périodique
Variété Données structurées Tous types de données/informations
Niveaux de confiance Haut niveau a priori requis Il faut d’abord filtrer le bruit. Ensuite le niveau de qualité est beaucoup plus relatif et soumis à des considérations ad hoc de conformité à un objectif métier
Moment de nettoyage Avant chargement dans les applications (ex : entrepôt de données) Les données peuvent être chargées telles quelles parce leur nature et les relations qu’elles entretiennent ne sont pas bien connues.On peut aussi n’en stocker sur disque qu’une partie car leur durée optimale de consommation est limitée
Composants critiques Focus sur certains composants : pour le client, ce peut être son couple prénom/nom L’exploration tient un rôle beaucoup plus important. Les éléments critiques à un stade (aspects temporel et de causalité) ou à un niveau de granularité n’est peut-être pas le même à un autre stade ou niveau.La démarche itérative est plus prononcée
Lieu d’analyse Le nettoyage se fait dans un lieu dédié (le « pressing »), dans les outils DQ Le « pressing » peut se déplacer vers le lieu de production ou d’exploitation des données.Il se peut qu’il ne soit pas judicieux ou pratique de faire transiter de grandes quantités de données.
Administration Les administrateurs peuvent gérer une grande partie des données sous leur responsabilité La proportion gérable est beaucoup plus faible

Récapitulatif des articles de la série sur le big data et qualité des données :

  • Parallélisme entre profilage des données et le big data
  • Les exigences supplémentaires du big data
  • La qualité des données appliquée au big data
  • Les conditions de succès

Le sujet vous intéresse, vous souhaitez le travailler avec une approche globale et transverse, venez nous retrouver dans le groupe Associer le Big Data et la Gouvernance de l’information de la communauté GouvInfo.  Grégory Maubon et moi même vous attendons !

 

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.