Big Data Paris 2018, la data sous toutes ses dimensions

12 avril 2018

Lors de la 7ème édition du Big Data Paris plus de 6 000 visiteurs se sont réunis lors de cet événement incontournable, pour qui veut connaître les tendances des nouvelles technologies de la data.

Parmi les intervenants majeurs de ce congrès, Mounir Mahjoubi, Secrétaire d’Etat au Numérique, Nozha Boujemaa, Directrice de recherche à l’INRIA ou encore Mickael Curtis, VP engineering de Airbnb. Mais également le Groupe BPCE ! La data est  en effet au cœur du nouveau plan stratégique TEC2020 du Groupe BPCE. C’est pour partager notre vision que Pascal Bourcier, Responsable produits data, est intervenu sur le sujet « Concilier data science et contrainte GDPR » au congrès Big Data Paris 2018. L’occasion aussi pour vous partager les grandes tendances de la data, portées par les différents exposants et conférenciers présents !

 

Un Big Data à grande échelle

Au congrès Big Data Paris 2018, le big data dépasse le champ des données. Il  est présent à la fois en amont du traitement de la donnée – de sa collecte à son intégration dans des bases de stockage ou dans le cloud – mais aussi en aval avec les systèmes d’analyse. Il relève aussi bien de la business intelligence moderne, de l’analyse sémantique, cognitive, émotionnelle et biométrique ou encore de l’intelligence artificielle.

Ainsi, au Big Data Paris 2018, on ne parle plus de business intelligence pour la phase d’interprétation des données mais de big analytics ou data analytics, c’est-à-dire des moyens d’analyse appliquée à la volumétrie et aux multiples formats des données. La question n’est plus de savoir si un outil ou une application implique le big data, mais de savoir s’il traite les données semi-structurées ou non-structurées qui correspondent en réalité, à 90% du big data.

Autre tendance à laquelle nous devons faire référence : l’intelligence artificielle. Elle est sans aucun doute, la technologie opérationnelle privilégiée pour contrebalancer le volume, l’accélération et le traitement de la multiplicité des formats de données.

Les entreprises traiteront jusqu’à 97% de leur data-sphère. Si seules 20% des données seront essentielles, 15% seront taggées et utiles à être interprétées,10% seront hyper-essentielles et moins de 5% seront effectivement analysées et valorisées par des systèmes. En illustration de ce que font les licornes, championnes des organisations data-centric (l’année dernière c’était Uber) , Mickael Curtis, VP Enginering de Airbnb a parlé de la collecte des données analysées par l’entreprise pour prédire les nuitées achetées sur les 12 mois glissants et ainsi recommander aux hôtes des prix ajustés aux prédictions.

 

Le Big Data dans les nouvelles technologies

Les espérances sur le plan business, médical, administratif ou civil n’ont d’égales que l’accélération du volume de production des data. IDC prévoit qu’elle atteindra 163 Zeta-octets en 2025 (1 180 milliards de milliards d’octets), soit 10,6 fois plus qu’en 2016.

Cette nouvelle édition du Big Data Paris nous révèle que 2018 sera sans doute l’année de convergence du big data avec de nouvelles technologies pluridisciplinaires adoptées par les entreprises. Même si elles ne sont pour l’instant qu’à un faible niveau de maturité, ces nouvelles technologies attisent la convoitise car l’origine des données, à horizon 2025, proviendra des entreprises elles-mêmes pour 60% (IDC).

Avec la maturité grandissante de certains usages et la progression en équipements technologiques des organisations et des individus, cette prochaine vague de data se profile, composée de données issues des objets connectés. Ces dernières proviennent en temps réel, de systèmes cognitifs et d’intelligence artificielle, du mobile – toujours first – et des applications.

Toutes les technologies dites du big data sont dotées a minima d’une couche d’intelligence artificielle qui devient accessible en machine-learning et deep-learning. Cette dernière n’est plus l’apanage d’une entreprise bien staffée en data scientistes spécialisés en IA comme Uber qui, grâce à cette technologie, analyse en masse les prises en charge et dépôts des passagers. L’intelligence artificielle devient un service accessible online, deep-learning-as-a-service. Dans le même temps, le Machine-Learning-as-a-service (MLaas) enregistre une forte expansion.

Bien que les technologies de collecte et de data visualisation sont matures, de nouveaux acteurs font leur apparition. Aujourd’hui, la volonté est de rendre la data toujours plus « visuelle » grâce à la donnée statique, exploratoire et prédictive. En 2018, nous sommes bel et bien entrés dans l’ère du « sens de la donnée ». Il devient alors impératif pour les entreprises de faire parler la data.

 

Un Big Data éthique

Porté par Nozha Boujemaa, Directrice de recherche à l’INRIA l’éthique des algorithmes a été un autre grand sujet du salon. La société civile est de plus en plus consciente de vivre dans un monde dominé par les algorithmes qu’elle qualifie « de diffus et pervasif ». Côté organisation, les données sans algorithme sont une masse inerte et ne donnent pas lieu à des décisions. Nous nous devons alors de ne pas rester utopistes et optimistes plus que de raison en pensant que l’IA résoudra tout, notamment dans la prédiction.

Le secteur business, tel que les GAFAMs, s’empare lui aussi du sujet de l’éthique car transparence et responsabilité seront les valeurs éthiques qui pourraient prévaloir à service égal.

Avec l’atelier « Concilier Data science et contrainte GDPR », le 89C3 représenté par Pascal Bourcier, a partagé des bonnes pratiques en matière de mise en application de la GDPR pour constituer le catalogue de données de BPCE et démontre comment la gouvernance de la donnée est un moyen de concilier les besoins d’analyse avec les contraintes GDPR. Une belle opportunité de keynote via Collibra, éditeur d’un dictionnaire pour les données.

Tout traitement en lien avec des données personnelles aura pour toile de fond la GDPR dont l’échéance est le 25 Mai 2018. Concernant l’e-privacy, selon  Mounir Mahjoubi, Secrétaire d’Etat au Numérique, « la portabilité des données est un gros enjeu pour permettre aux citoyens de récupérer leurs data facilement et changer d’entreprise responsable du traitement. C’est un réflexe que les citoyens n’ont pas encore mais ils doivent maîtriser leurs données personnelles. » La portabilité représente de nouveaux droits pour les citoyens, de nouvelles opportunités pour les entreprises et une plus grande transparence demandée pour les plateformes.

Sujet qui a fait l’objet d’une table ronde, intitulée ronde « Protection des données : comment faire d’une obligation légale un atout de la stratégie d’entreprise » Sophie Nerbonne, Directrice de la conformité de la CNIL, a une fois de plus démontré que les réglementations sont des accélérateurs de transformation pour les organisations, en plus d’être un parapluie pour les citoyens.

Best practices, conférences éclairantes, rencontres inspirantes, état des lieux, dernières actualités et tendances, tel était le cocktail du Big Data Paris 2018 !

Ce congrès a ainsi revêtu les atours de l’industrie numérique 4.0, une industrie du futur qui se construit de systèmes intelligents, interconnectés qui intègre désormais des préoccupations sociales liées à l’éthique, le respect de la vie privée, la transparence et l’ouverture.

Le Groupe BPCE s’inscrit dans ces tendances et les applique dans ses projets digitaux !

GDPR(Règlement général sur la protection des données) : Fait référence au texte européen concernant la protection des données à caractère personnel dont l’application en France est prévu pour mai 2018. Vu la complexité de mise en œuvre, la date est sujette à modification.

 

Données non-structurées : Données représentées ou stockées sans format prédéfini, elles concernent la possibilité d’intégrer des données quel que soit le format (texte, image, son, date…)
Systèmes cognitifs : Ensemble d’algorithmes inspiré du fonctionnement des neurones biologiques.

 

Machine-learning : Algorithmes d’auto-apprentissage dans le but de prendre des décisions ou trouver des solutions à des problèmes.

 

Deep-learning : Sous domaine du machine learning qui consiste à partir de l’apprentissage de modèles de données à établir des actions (exemple : l’observation des caractéristiques d’un chat pour identifier des images chats).

 

Business Intelligence (en Français décisionnel) : Outil d’agrégation de données permettant de définir ou d’orienter une stratégie métier.

 

Définitions données par Baptiste Sans Jofre, Architecte fonctionnel, IT-CE

A revivre sur les réseaux sociaux !

#BigDataParis2018 @BigDataParis

Pour aller plus loin :

2ème édition du rapport de l’AGD : la donnée comme infrastructure essentielle
Partage d’algorithme en open source et publication dans Scikit-learn les nouveaux virages du Groupe BPCE
La data, une science pragmatique