Juin 2018, agileDSS s’est rendu à San Jose en Californie, pour assister au Dataworks Summit afin de suivre les dernières actualités de la distribution Hadoop de Hortonworks et de s’informer sur les nouvelles tendances du marché.

Image-début

Au programme: de nombreuses présentations et conférences - plus de 200 au total - réparties en huit grands thèmes:

  • Entreposage et stockage de données opérationnelles
  • Intelligence artificielle et science des données
  • Calcul intensif
  • Cloud et Opérations
  • Gouvernance et sécurité
  • Cyber-sécurité
  • IoT et Streaming
  • Adoption des organisations

Bref, beaucoup d’informations et d’innovations dans des domaines fascinants. Les lignes qui suivent vous proposent un retour sur quelques-uns des éléments les plus marquants de cet événement.

Les promesses de Hadoop 3

Hadoop2_vs_Hadoop3_Blog-01

Maintenant disponible dans la  version HDP 3.0 (Hortonwork Data Platform), la version 3 de Hadoop améliore nettement la polyvalence de la plateforme. Voici les principaux ajouts que nous avons retenus:

  • L’optimisation de l’espace de stockage de HDFS grâce au Erasure Coding. Ceci promet des gains d’environ 50% par rapport à la réplication, tout en conservant les mêmes garanties de durabilité.
  • Le contrôle des disques et des GPU qui optimise l’utilisation des ressources d’un cluster en permettant, notamment, la  mise en place de processus algorithmiques intensifs comme le Deep Learning.
  • La fédération HDFS offre une prise en charge de plusieurs espaces de noms dans le cluster par l’ajout de plusieurs Name Nodes.
  • Le support pour container Docker règle des problèmes de longue date liés à l'isolation des dépendances. Par exemple, les utilisateurs pourront installer leur propre version de Python et ses nombreuses librairies sans avoir besoin de solliciter les administrateurs systèmes (évitant ainsi l’installation des spécificités d’un processus sur chacun des noeuds du cluster).

L'utilisation des containers dans le contexte Hadoop a le vent dans les voiles. De nombreuses expérimentations sont en cours pour intégrer proprement Hadoop dans Kubernetes. Bien que le tout ne soit pas encore à point et reste encore très complexe - notamment à cause de la forte dépendance entre les composants de l'architecture Hadoop - nous pouvons croire que cette intégration sera facilement réalisable dans un avenir rapproché.

Ingestion et flux de données

Plusieurs conférences ont fait ressortir la valeur du produit Apache NIFI pour contrôler de manière valide et efficace les processus d’ingestion de données.

nifi

L’interface de NIFI offre une visibilité d’ensemble de tous les processus. Elle permet de suivre l’exécution des flux de données du début à la fin, en montrant la provenance des données et le niveau de contre-pression de chaque noeud en cours d’exécution.

Certains conférenciers ont montré comment la gestion et le déploiement des configurations pouvaient être réalisés par l'utilitaire NIFI Registry, du cycle de développement jusqu’à la production. Point intéressant: les déploiements de configuration en production peuvent être lancés pendant l’exécution de processus NIFI. Ceci rend ainsi possible les mises à jour et les modifications sans affecter la disponibilité des systèmes.

RGPD et la gouvernance des données

Le Règlement Général de Protection des Données de l'Union européenne (RGPD) - entré en vigueur le 25 mai dernier - oblige désormais les entreprises à porter une attention particulière à leurs données. Cette nouvelle réglementation impose à toute entreprise de sécuriser et gérer rigoureusement ses données afin d’en assurer la protection et la conformité.

Sur ce point, plusieurs présentations ont positionné Atlas et Ranger comme produits de référence pour l’implémentation de processus de gouvernance dans l’écosystème Hadoop. Ce positionnement concorde par ailleurs avec l’arrivée récente de la version 1.0 de Atlas; laquelle ajoute les fonctionnalités suivantes:

  • Positionnement du concept de “relation” en tant que type de première classe
  • Propagation de classifications entre les relations d'entité
  • Sécurité des métadonnées à granularité fine
  • Introduction de la fonction Glossaire pour la définition de vocabulaire et de taxonomies métiers.
  • Intégration avec Cassandra et Elasticsearch

Dans le contexte du RGPD, Hortonworks propose une nouvelle plateforme appelée DataPlane Service (DPS) qui permet aux entreprises de découvrir, gérer et régir la diffusion de leurs données dans des environnements hybrides. Cette plateforme inclut notamment les deux extensions suivantes:

  • Data Lifecycle Manager (DLM), qui offre des mécanismes de protection des données et des métadonnées
  • Data Steward Studio (DSS) qui fournit un ensemble de fonctionnalités permettant aux utilisateurs de comprendre et de gérer les données à travers les data lake d'entreprise

La métamorphose de Kafka

Aujourd'hui, il est très difficile pour les développeurs, les opérateurs et les gestionnaires de visualiser et de surveiller ce qui se passe dans un cluster Kafka. C’est pour pallier ce manque de visibilité que Hortonworks a investi dans un nouveau produit appelé Streams Messaging Manager (SMM). Cet outil permet de visualiser les détails complexes du fonctionnement de Kafka en temps réel, en faisant ressortir certains problèmes de réglage et d'optimisation. SMM devrait aider les utilisateurs de tout niveau à comprendre et à exploiter rapidement Kafka, tout en fournissant aux utilisateurs plus expérimentés la transparence nécessaire pour éviter certains pièges associés à la gestion de ce type de cluster.

Cycle de développement des processus en data science et en machine learning

Dans le monde de l'ingénierie logicielle traditionnelle, la nécessité d’avoir un cycle de développement structuré et accompagné de bonnes pratiques est depuis longtemps comprise et acceptée. Cependant, lorsque cette compréhension n’est pas acquise et que les utilisateurs méconnaissent ces principes du génie logiciel, tous ces processus peuvent être perçus comme autant d’obstacles affectant leur productivité quotidienne.

Plusieurs conférences sur cette problématique ont permis de démontrer comment les activités liées à la science de données, l’apprentissage machine et l’intelligence artificielle peuvent être amenées au même niveau de maturité que tout développement logiciel, avec des mécanismes concrets et éprouvés comme l’intégration et le déploiement continus.

Quand les algorithmes prennent le pas sur l’humain

Kevin Slavin, directeur scientifique et technologique pour The Shed (nouveau centre d'innovation artistique situé à New York) nous a offert un des moments les plus forts et intéressants de tout l’événement. Slavin a présenté avec brio et humour une conférence intitulée “How algorithms shape our world” (Comment  les algorithmes façonnent notre monde). De manière saisissante, cette conférence - disponible sur Youtube et TED - nous fait prendre conscience de l’impact des algorithmes dans notre quotidien.

En prenant pour exemple le krach boursier du 6 mai 2010 (le Flash Crash, causé essentiellement par les règles d’un programme de trading algorithmique), Slavin nous montre comment le fait de déléguer nos décisions à des programmes informatiques de plus en plus complexes (qui résolvent des problèmes à notre place, et parfois sans même que nous comprenions leur solution) introduit une perte de contrôle progressive qui rend notre monde de plus en plus fragile et vulnérable.

flash-crash

Slavin nous rappelle qu’aucune intervention humaine n’a provoqué cette crise, et que personne n’a pu la contrôler: les algorithmes ont pris le dessus et l'humanité a été mise, pour ainsi dire, en lock-out!

D’après Slavin, 70% du marché boursier reposerait sur le trading algorithmique. La plupart du temps, les transactions (incluant donc possiblement nos fonds de pension ou nos hypothèques) sont gérées par un ou des programmes qui se font concurrence entre eux.

Afin d’étayer son point, Slavin utilise également l’image suivante:

auto-sql-injection

Cette photo illustre de manière amusante et un peu caricaturale comment un pirate informatique s’y est pris pour tenter une suppression de ses données d'immatriculation. En effet, en cas de faille dans le système, la commande SQL apparaissant sur la plaque d’immatriculation pourrait potentiellement être lue par les radars et exécutée dans le système.

Slavin met cette vulnérabilité au coeur d'une réflexion éthique sur l'intelligence artificielle. Afin de soutenir le principe d’une intelligence informatique qui n’exclut pas entièrement l’humain du processus décisionnel, il proposera le terme “intelligence étendue” plutôt que intelligence artificielle.

En somme, le Dataworks 2018 a été une belle occasion pour agileDSS de renforcer son expertise Big Data, tout en s’informant des dernières tendances du marché. Nous espérons que cet article vous aura été utile si vous n’avez pas pu participer à ce beau rassemblement.

Partager cet article
  


À propos de l'auteur

Michel Dion

Michel Dion est conseiller en architecture Big Data. Professionnel des technologies de l'information depuis le début du web, il a travaillé comme architecte de solutions dans plusieurs secteurs d'activité, dont l'industrie du voyage et média.

CONTACT

agileDSS Inc.
407, rue McGill, bureau 501.
Montréal (QC) H2Y 2G3.

info@agiledss.com
(514) 788-1337