Dans le contexte actuel où la disponibilité du service informatique est limitée, il peut être très utile de commencer à vous connecter à votre cluster Hadoop sans avoir à modéliser les données à l'avance, et sans avoir à maîtriser les outils de l'écosystème Hadoop tels que Pig, Hive et Spark. Avant même de définir des vues sur vos données dans Hadoop, vous pouvez utiliser SAP Lumira pour accéder rapidement à vos données, pour les profiler, les transformer et créer des visualisations! Dans ce tutoriel, nous allons vous montrer comment utiliser l'outil SAP Lumira Discovery pour commencer à explorer et collecter vos données dans Hadoop de façon simple. Pas besoin d'être un super-héros du code pour commencer votre voyage dans le monde du Big Data!

Pour vous faciliter la tâche, nous vous guiderons étape par étape pour connecter SAP Lumira Discovery à votre cluster Hadoop, quelle que soit la distribution que vous utilisez. Dans cet exemple, nous allons utiliser SAP Lumira Discovery 2.1 pour nous connecter à un entrepôt de données Hive.

Lumira est compatible avec d'autres bases de données middleware qui utilisent les requêtes SQL. Pour une liste complète, consultez la matrice de disponibilité des produits SAP.

Pour suivre ce tutoriel, vous aurez besoin de connaissances SQL de base.

Étape 1: Connecter SAP Lumira Discovery à Hive

Ouvrez Lumira et sélectionnez Query with SQL dans votre liste de sources de données.

1.png

À ce stade, vous verrez cette fenêtre:

2.png

Selon la technologie que vous utilisez, sélectionnez la version du pilote correspondante. Dans mon exemple, je sélectionne Apache Hadoop Hive 2.x HiveServer2 - Simba JDBC Drivers. Si vous n'êtes pas familier avec votre version de cluster Hadoop, demandez à votre administrateur ; vous aurez probablement à demander des informations de connexion également.

Ensuite, entrez vos informations de connexion:

3.png

Cochez la case "Remember me" pour sauvegarder les informations de connexion.

Vous avez également un bouton "Advanced" : vous pouvez utiliser les valeurs par défaut définies dans cette section, mais si vous voulez savoir ce que vous pouvez faire avec ces options avancées, voici une explication rapide:

4.png

1. Connection Pool Mode: les pools de connexions sont utilisés pour améliorer les performances d'exécution des commandes sur une base de données. Un pool de connexions est un cache de connexions de base de données maintenu de sorte que les connexions peuvent être réutilisées lorsque des demandes futures d’accès à la base de données sont demandées. Si vous utilisez un pool de connexions, utilisez cette option pour que la connexion en mode pool de connexion reste active.

2. Pool Timeout: Si le mode pool de connexions est défini sur Keep the connection active for, indiquez la durée pour laquelle la connexion doit rester ouverte.

3. Array Fetch Size: Il s’agit du nombre maximal de lignes autorisées à chaque extraction de la base de données. Par exemple, si vous entrez 10 et que votre requête donne 100 lignes, la connexion récupère les données dans dix sections de 10 lignes chacune. Pour désactiver cette fonctionnalité, entrez une Array Fetch Size de 1. Les données sont récupérées ligne par ligne. La désactivation de cette option peut augmenter l'efficacité de la récupération de vos données, mais elle ralentit les performances du serveur. Plus la valeur Array Fetch Size est grande, plus vos lignes sont rapidement récupérées. Cependant, assurez-vous que le système client dispose d’une mémoire suffisante.

4. Array Bind Size: Il s’agit de la taille du bloc mémoire contenant les données avant qu’elles ne soient transmises à la base de données. Généralement, plus la taille est grande, plus le nombre de lignes (n) pouvant être chargées en une seule opération est grand, et la performance sera optimisée.

5. Login Timeout: Le nombre de minutes avant qu'une tentative de connexion expire et qu'un message s'affiche. Une fois que vous avez entré toutes vos informations de connexion, vous pouvez cliquer sur:

 10.png

Étape 2: Sélectionner votre jeu de données

Vous aurez accès au Catalogue, vous verrez les comptes disponibles sur la base de données connectée. Développez chaque noeud pour voir les tables disponibles. Double-cliquez sur la table que vous souhaitez ajouter dans la requête SQL.

11.png

Dans le panneau de requête, vous avez la possibilité de saisir une commande SELECT. Seule la commande SELECT est autorisée dans l'éditeur SQL pour acquérir des données à partir des tables de base de données.

Dans la dernière capture d'écran, nous avons récupéré l'intégralité du jeu de données en faisant un SELECT *.

Mais si vous voulez récupérer seulement un échantillon de vos données ou filtrer votre jeu de données (vous pouvez bien sûr filtrer vos données dans une seconde étape dans vos visualisations Lumira), vous pouvez faire la requête suivante:

SELECT TOP 1000
Ou ajouter une clause WHERE dans votre requête SQL comme:
where transaction_type = ‘purchase’

Vous devez cliquer sur le bouton "Preview" pour avoir un aperçu de vos données, puis cliquer sur le bouton "Visualize". Vous verrez vos dimensions et mesures créées automatiquement dans Lumira.

12.png

Vous pouvez cliquer sur le bouton "DataView" pour voir vos données dans une table.

13.png

Une digression rapide sur le nombre de lignes que Lumira peut récupérer dans un jeu de données:

À titre informatif, avec SAP Lumira, vous n'avez pas de limitation sur le volume de données qui peut être récupéré. Cela dépend de la RAM et des ressources système disponibles sur votre machine. Cependant, certaines visualisations sont limitées en termes de nombre de points de données agrégés pouvant être affichés : la limite est de 10000 points de données. Si vous rencontrez des problèmes de mémoire avec Lumira, vous pouvez les résoudre en augmentant la valeur du paramètre -Xmx dans le fichier SAPLumira.ini. L'emplacement par défaut de ce fichier est le suivant: C:\Program Files\SAP Lumira\Desktop\.

Étape 3: Construire votre histoire

Vous êtes maintenant prêt à construire vos propres visualisations avec Lumira! Vous pouvez maintenant commencer à jouer avec votre jeu de données et créer de belles visualisations pour faire parler vos données en quelques minutes.

14.png

Pour conclure, en 3 étapes rapides, SAP Lumira Discovery vous donne la possibilité d'explorer un gros volume de données via un cluster Hadoop, sans avoir à vous soucier de la taille réelle de l'ensemble de données. Pour aller plus loin avec SAP Lumira Discovery, vous pouvez découvrir toutes les fonctionnalités d'analyse avancées disponibles dans les graphiques. Par exemple, utilisez la fonctionnalité “Trendline” pour visualiser une tendance linéaire ou pour prédire des données futures en fonction de la tendance linéaire de vos données. L’utilisation d'un grand volume de données via une connexion Hadoop peut être très intéressante pour prévoir les tendances dans l’évolution de vos données.

Partager cet article
  


About the author

Christelle Le Goff

Christelle est conseillère en intelligence d'affaires. Très tôt, elle a orienté sa carrière sur les technologies SAP. Elle se distingue par ses connaissances sur toute la chaîne décisionnelle, allant du développement ETL avec Data Services, au reporting avec la suite SAP Business Objects. Elle donne notamment des formations sur SAP Lumira pour les clients d'agileDSS.

CONTACT

agileDSS Inc.
407, rue McGill, bureau 501.
Montréal (QC) H2Y 2G3.

info@agiledss.com
(514) 788-1337