La qualité des données appliquée au big data
Elle va englober les thèmes suivants
- La qualité de données classique
- L’extension aux nouveaux types de données et aux domaines de l’information
- Le mélange des différents types de données
- La dimension temporelle, temps réel , voire mutante de certaines données. Par exemple le sabir « djeun » évolue très vite et certaines expressions supplantent d’autres rapidement. YOLO !
Les données transactionnelles auxquelles nous sommes habituées
- La démarche qualité de données est celle que nous connaissons.
Les informations d’entreprise auxquelles nous sommes habituées
- Il s’agit de tous les fichiers word, xls, pdf, emails, modèles de donnes etc. Ce domaine comprend aussi l’ECM (Enterprise Content Management), la GED, les glossaires, les « records », les documents juridiques, les données web.
Nous ne connaissons pas de travaux permettant de définir et encore moins d’évaluer la qualité de ces informations. Du moins avant la percée des big data. Cette absence révèle soit la cohabitation en silo des mondes des données auxquelles appartiennent applications et la majorité des systèmes informatiques et les mondes de l’information auxquelles appartiennent taxinomies, libraires et gestion documentaires. Soit elle révèle que le big data est vraiment le big data et pas le big information auquel cas le traitement des données peu ou non structurées tombe dans un zone floue à cheval entre le mondes des données et le monde des informations. Ce qui nous amène au paragraphe suivant.
Les nouveaux types de données
Ce sont les données semi structurées et non structurées. Les données semi structurées comprennent les logs web, machine et autres xml. Les données non structurées comprennent
- les informations : la structure n’est pas au niveau des données mais dans l’assemblage, la grammaire, le sabir local, les figures de style. Par exemple, la richesse de « A la recherche du temps perdu » est due à l’auteur plus qu’à la richesse du vocabulaire employé.
- Les videos, les images et les bandes audio
Pour chaque type, de nouvelles techniques sont nécessaires.
Le mélange des genres
De nouvelles techniques sont nécessaires pour mener à bien la qualité de données de différents types.
La volatilité de certaines données big data
Certaines techniques sont connues. Toutefois les contraintes sont particulièrement fortes
- Les exécuter en temps réel
- Faire face à des format qui sont susceptibles d’évoluer
De nouvelles approches peuvent s’avérer nécessaire pour tenir compte de ces contraintes.
Récapitulatif des articles de la série sur le big data et qualité des données :
- Parallélisme entre profilage des données et le big data
- Les exigences supplémentaires du big data
- La qualité des données appliquée au big data
- Les conditions de succès
Le sujet vous intéresse, vous souhaitez le travailler avec une approche globale et transverse, venez nous retrouver dans le groupe Associer le Big Data et la Gouvernance de l’information de la communauté GouvInfo. Grégory Maubon et moi même vous attendons !
0 Comments Leave a comment