Début mars 2018 se tenait la conférence Strata à San Jose en Californie, sur le Big Data, la Data science et l’Intelligence Artificielle. agileDSS a eu l’opportunité d’y assister dans le but de s’informer sur les nouvelles tendances du marché et de découvrir les nouvelles meilleures pratiques pour ces disciplines. Au programme:

  • De nombreuses conférences sur les nouvelles technologies disponibles sur le marché et sur les apports de la science de données et de l’intelligence artificielle, non seulement pour les entreprises, mais aussi pour la société en général
  • Des présentations sur 3 grands thèmes : gouvernance, programmation et data science
  • Un salon des exposants ouvert en continu qui regroupait les partenaires de l’événement, les éditeurs, et plusieurs des principales compagnies innovantes dans ces domaines

20180308_154748

Dans cet article, nous vous proposons un petit retour sur les éléments marquants de la conférence:

Nos coups de cœur Entreprises

Parmi toutes les conférences d’entreprises auxquelles nous avons assisté, voici les initiatives qui nous ont marqués:

Pinterest

C’est Li Fan, vice-présidente de l’ingénierie, qui nous a expliqué comment l’utilisation des données chez Pinterest avait permis de bâtir un outil interactif et diversifié pour leurs utilisateurs. À partir d’une base de données d’images, Pinterest a su développer un outil de reconnaissance visuelle qui permet de suggérer aux utilisateurs des images qui conviennent à leur style et à leurs goûts. En plus de reconnaître les éléments d’une image, Pinterest a aussi appris à les catégoriser en fonction du style et du design de l’élément affiché, et construire ainsi un outil de recommandations entièrement automatisé pour ses utilisateurs. D’un point de vue volume, Pinterest doit composer avec la gestion de 1 million de requêtes par seconde, 100 milliards “d'épingles” réparties dans 2 milliards de “tableaux”. Le tout représente 175 pétabytes (ou millions de gigabytes) à gérer, pour 200 millions d’utilisateurs mensuels actifs.

20180307_090643

Amazon

Amazon a profité de l’événement Strata pour annoncer la sortie de SageMaker, leur nouvel outil de data science, disponible sur AWS. En plus de combiner plusieurs outils de la grande famille des logiciels ouverts tels que Jupyter, Zeppelin, plusieurs algorithmes, etc., SageMaker optimise automatiquement les performances de l’infrastructure qui le supporte. Il permet une itération rapide des algorithmes à tester sur votre ensemble de données. Amazon met aussi à la disposition de ses utilisateurs les algorithmes qui ont été développés par ses data scientists sur leurs multiples sources de données issues de leurs nombreuses plateformes de services. Ces algorithmes ne sont pas ouverts, mais Amazon accepte les suggestions d’amélioration. SageMaker possède des connecteurs Spark et peut s’intégrer aux pipelines de ce dernier.

20180307_101702

BrightHive

Pendant plus de 15 ans au gouvernement américain, notamment sous la présidence Obama, Natalie Evans Harris a lancé de nombreuses initiatives sur le partage et l’utilisation des données à travers les différents départements du cabinet. Elle est également à l’origine de questionnements sur l’éthique des données et leur utilisation. Dans le contexte d'une nouvelle présidence américaine moins réceptive à l’utilisation des données, elle a rejoint BrightHive, et a lancé récemment un grand programme de consultation auprès de nombreux intervenants du monde de la donnée, dans le but de mettre en place une politique d’éthique sur l’utilisation des données, autant dans la sphère publique que privée.

20180307_100050

Go-Jek

Go-Jek est une compagnie basée aux Philippines spécialisée dans les raccompagnements en mobylettes - sorte de scooter-taxi -, qui a rapidement compris qu’il lui fallait utiliser ses données pour atteindre son plein potentiel. Cependant, en explorant leurs données, ils se sont aperçus qu’un restaurant local utilisait le système de Go-Jek pour encaisser de fausses ventes. Ils sont allés rencontrer ce commerce, ont vu le potentiel du restaurant, et ont décidé d’en faire la promotion sur leur plateforme, pour la livraison de nourriture en mobylette. Grâce à Go-Jek, le restaurant en question a plus que décuplé ses ventes depuis. C’est comme ça que Go-Jek a décidé d’ouvrir une nouvelle ligne d’affaires pour aider les commerces locaux à promouvoir leurs produits et offrir la livraison par leur modèle d’affaires initial. Depuis, Go-Jek s’est fortement développé à l’échelle du pays et aide les communautés à se rapprocher, autant en ville qu’en campagne. Un bel exemple qui démontre à quel point l’utilisation des données peut propulser les entreprises à un autre niveau, tout en bénéficiant à la société.

20180308_094146

Everybody Lies

Seth Stephens-Davidowitz, auteur américain du bestseller Everybody Lies, est un passionné de données. Dans son livre très populaire, il s’est lancé dans une recherche pour aller sonder la psyché humaine. Au lieu de se pencher vers les sondages traditionnels, il a décidé d’aller explorer l’univers de données que Google met à la disposition de tout le monde pour faire une analyse très poussée de la situation du racisme aux États-Unis. En utilisant Google Trends et l’autocomplétion du moteur de recherche, il a été capable de corréler les secteurs avec le plus haut taux de racisme du pays avec les opinions politiques exprimées lors des dernières élections présidentielles. Sa conclusion est sans appel: tout le monde ment dans les méthodes traditionnelles de sondage ; la seule façon de savoir ce que les gens pensent vraiment, c’est d’utiliser les données anonymes des grands moteurs de recherche.

20180308_100350

Crisis Text Line

Nous avons gardé notre coup de coeur pour la fin: Nancy Lublin a lancé l’initiative Crisis Text Line, qui consiste à donner un point de contact où les jeunes - et les moins jeunes - peuvent texter leurs problèmes lorsqu’ils sont en détresse, et parler à des bénévoles afin de les aider à passer à travers les moments difficiles de leur vie. Afin de raffiner leur processus de tri, Crisis Text Line a voulu faire appel aux mégadonnées afin de reconnaître les mots-clés qui annoncent les cas les plus difficiles et les suicides imminents. Avec les modèles mis en place, ils affirment que les messages textes étant étiquetés avec un risque de suicide imminent sont pris en charge en moins d’une minute. Le système les fait passer devant tout le monde et les réfère à des bénévoles spécialement formés pour répondre à ce genre de situations. Probablement le plus bel exemple d’utilisation des données pour le bien de la société... D’ailleurs, Nancy a lu sur scène un courriel envoyé par une mère de famille remerciant l’organisme d’avoir sauvé la vie de son mari. Sans leur intervention, elle se serait retrouvée mère monoparentale. Un moment très touchant de la conférence!

Nos partenaires

Les grands éditeurs logiciel de l’industrie étaient très présents à Strata, et parmi eux nos partenaires technologiques Hortonworks et Cloudera ont assuré une belle présence à l’événement:

Hortonworks était bien visible dans le hall des exposants et proposait ses services aux participants. Cloudera, notre tout nouveau partenaire, avait aussi une grande visibilité durant l’événement: plusieurs conférences - dont 2 dans les segments principaux de l’événement (keynotes) -, le premier kiosque en entrant dans le hall, ainsi qu’un espace de formation pour ceux qui voulaient en apprendre davantage sur leur plateforme. Ils ont également profité de Strata pour annoncer une extension d’Altus.

20180307_134051

20180307_134136

Les tendances du marché

Certains thèmes sont revenus très fréquemment dans les différentes conférences. En voici un bref aperçu. L’équipe d’agileDSS surveillera de près l’évolution de ces tendances:

RGPD (Règlement Général sur la Protection des Données)

Avec l’application imminente du Règlement général sur la protection des données des citoyens de l’Union européenne, il est essentiel de se conformer à ces exigences légales pour tous les citoyens européens présents dans vos bases de données. Les règles d’application de ce règlement étant assez strictes, elles nécessiteront des dispositions particulières autour des données personnelles des citoyens européens. À suivre avec attention dans les prochains mois.

Spark

Spark est toujours l’une des plateformes chouchou des mégadonnées. De ce fait, elle jouit d’une attention toujours grandissante, mais elle doit aussi faire face à des défis de plus en plus grands, parmi lesquels :

  • Le temps d’interaction entre le serveur maître et les exécuteurs : en effet, il peut prendre jusqu’à 50% du temps d’exécution des tâches. Pour contourner ce problème, certains acteurs de la communauté commencent à proposer des solutions qui visent à diminuer au maximum les interactions entre les deux différents services.
  • La mémoire : un problème récurrent depuis la création de Spark. Les pipelines ont permis d’aider à résoudre une partie du problème en exécutant en continu, mais ça ne règle pas tous les défauts. Des solutions comme SageMaker commencent donc à émerger, dans lesquelles la donnée est traitée en continu jusqu’à ce que tout soit traité. Ce genre d’alternatives sera sûrement très en demande dans les prochaines années et agileDSS suivra avec intérêt les développements.
  • Spark Streaming : avec l’amélioration constante de Spark Streaming, il est de plus en plus possible d’exploiter cette partie de Spark avec des technologies éprouvées d’ingestion de données, comme Kafka, pour commencer à utiliser le potentiel de vos données encore plus rapidement. Un connecteur entre Spark et Kafka a d’ailleurs été développé récemment, permettant une intégration plus facile entre les 2 technologies.

Blockchain

Tendance marquante de la dernière année avec la popularité grandissante des crypto-monnaies, les processus en chaîne de blocs sont de plus en plus utilisés dans le milieu des données. Il est cependant encore difficile de prédire dans quels aspects des mégadonnées ils réussiront à s’imposer dans les prochaines années. Affaire à suivre!

Métadonnées

Avec la NSA qui a fait les manchettes des journaux dans les dernières années sur l’utilisation des métadonnées pour obtenir de l’intelligence sur les citoyens américains, plusieurs questions ont été soulevées sur ce qui génère des métadonnées et comment on peut essayer de limiter au mieux l’exposition de nos stratégies d’entreprises par celles-ci. L’un des exemples donné à Strata concernait le type d’informations qu’un coupon de caisse peut divulguer à un concurrent : avec des informations telles que l’heure d’achat, le numéro séquentiel de la vente ou encore le nom ou poste de la personne impliquée dans la vente, un concurrent pourrait peut-être facilement deviner votre chiffre d’affaires, le nombre de ventes, l’organisation du cadre du travail, ou encore la performance globale du commerce. Une réflexion intéressante et importante sur ce que vous exposez au monde extérieur, souvent sans même en avoir conscience...

Finalement, la conférence Strata nous aura donné un bel aperçu des grandes tendances et nouveautés de l’industrie. Un contenu riche, pertinent et de qualité, qui nous conforte dans le positionnement actuel d’agileDSS, et nous permettra de bien nous préparer aux futurs besoins de nos clients. Nous espérons que ce petit compte rendu vous aura permis de vivre un peu l’expérience Strata vous aussi!

Partager cet article
  


About the author

Guillaume Girard

Guillaume est conseiller senior en Big Data, avec un focus sur l'architecture. Il s'est joint à l'équipe d'agileDSS en 2017 après avoir évolué essentiellement dans l'industrie multimédia.

CONTACT

agileDSS Inc.
407, rue McGill, bureau 501.
Montréal (QC) H2Y 2G3.

info@agiledss.com
(514) 788-1337