• 13déc

    BIG “BROTHER” DATA ou BIG “OPEN” DATA ?
    Suite de:
    Première partie : BIG BANG de la connaissance ou de la consumérisation des humains
    Deuxième partie: BIG Data, des mythes qui reviennent

    BItempsreelTroisième partie: BIG DATA, une évolution dans la continuité des TIC?

    Est-ce que le BIG DATA ne serait qu’un terme factice pour parler de l’évolution naturelle de la Business Intelligence, du Web avec le Web 3.0, ou de la bataille des systèmes ouverts avec l’OPEN DATA ? Ou est-ce qu’il recouvrirait des enjeux de gouvernance des données sans précédent jusqu’alors?

    La Business Intelligence revisitée?

    Les usages des «BIG DATA», impliquent identification, recherche et collecte d’informations, filtres, stockage, analyse, diffusion. Qu’est-ce qui change par rapport à des techniques de Business Intelligence(BI), d’entrepôts de données ou bien de gestion électronique de documents qui existaient avant l’émergence du terme? Pour simplifier, nous citerons le volume, ensuite les formats et pour finir la logique temporelle (la rapidité d’accès et d’analyse). Il s’agit non pas de manipuler des données structurées en provenance d’une simple source, mais de manipuler des données structurées et non structurées qui proviennent de différents lieux de stockage à l’intérieur de l’entreprise mais aussi de toutes les sources d’interaction extérieures. C’est-à-dire, vidéo, audio, texte, données de capteur, image, email, SMS, contenus provenant des réseaux sociaux…. Le tout avec de fortes volumétries et pour finir avec l’ambition de faire des analyses au pied levé, c’est-à-dire quasiment en temps réel, par des utilisateurs néophytes.

    La volumétrie des données manipulées par certains sites Web a conduit à utiliser d’autres logiques de stockage de données par rapport aux systèmes de gestion de base de données relationnelles traditionnels : architecture distribuée sur des nœuds de serveurs, capacité d’accès très rapide avec souvent un système clé-valeur, analyse proche du temps réel. Pour beaucoup, on retrouve les logiques de gestion de fichiers associées aux beaux jours des mainframes, mais en environnement distribué.

    Le framework open source en Java, Hadoop, inclut ainsi le système de fichier distribué HDFS (Hadoop Distributed File System) et la base HBase, la base de données distribuée qui consolide l’identité des informations collectées au travers des nœuds qui composent un cluster de serveurs, ainsi que l’architecture analytique de MapReduce, une architecture de développement dédiée aux calculs parallèles et distribués.

    MultipleBrique

    Mais Hadoop n’est qu’un outil parmi d’autres et l’outil ne fait pas tout. D’autres systèmes sont apparus, certains plus performants en termes de rapidité de traitement de gros volumes (cf. Presto pour FaceBook), de stockage de fichiers et dans tous les cas, Hadoop est toujours combiné avec d’autres briques technologiques dont beaucoup issues de la BI classique. On peut lire à ce sujet l’article du monde informatique sur une enquête d’IDC montrant qu’Hadoop n’est pas le bloc unifié qui fait tout.

    Derrière tout cela, en effet, il n’y a pas un seul système qui unifierait toutes les approches. Mais bien de multiples briques, certaines issues des outils et solutions traditionnelles de Business Intelligence des entreprises, certaines issues des nécessités de manipulation rapide et aisée des données issues de l’émergence du Web comme plate-forme numérique globale. Au-delà des multiples briques technologiques, demeurent les mêmes défis : qualifier les données, les nettoyer, leur donner du «sens», peut-être les transformer, en tout cas savoir les lier pour analyser de façon encore plus pertinente les tendances…
    Et c’est là qu’une autre évolution, celle du Web sémantique, apparaît dans le champ des «BIG DATA».

    L’évolution par les données liées du web sémantique
    Page Suivante

    Article entier :Page suivante »

Laisser un commentaire

Avertissement: Les commentaires sont soumis au modérateur ce qui peut retarder leur publication. Il n'est pas utile de les renvoyer dans l'intervalle, merci.