Le volume de données en constante augmentation et le besoin d’accéder rapidement à celles-ci accélèrent l’adoption des nouvelles technologies de base de données In-Memory des dernières années. Par contre, l’arrivée de ces technologies force les services d’intelligence d’affaires à revoir une partie de leur architecture. Plusieurs choix d’architecture sont proposés par les vendeurs de technologies. Typiquement, l’idée proposée consiste à asseoir le système opérationnel directement sur la base de données In-Memory et à effectuer les requêtes directement sur celle-ci. Par contre, une autre proposition vaut aussi la peine d’être explorée : une architecture qui combine le Data Vault et les technologies In-Memory.

Le Data Vault et le In-Memory en un clin d’œil

Tout d’abord, voici en quelques points un résumé des principales caractéristiques du Data Vault et des bases de données In-Memory.

Data Vault

  • Architecture d’entrepôt de données brutes
  • Historisation, intégration et traçabilité des données
  • Modèle flexible

Si vous n’êtes pas familiarisé avec ces concepts ou que vous voulez en savoir plus sur les concepts globaux du Data Vault, je vous invite à lire la série de blogues sur le sujet.

Base de données In-Memory

  • Rapidité
  • Traitement de gros volume
  • Granularité (agrégations non nécessaires pour le rendement)

Architecture de haut niveau

L’architecture proposée est relativement simple, mais elle crée une synergie en combinant les forces du Data Vault à celles des technologies In-Memory. Voici les quatre étapes de l’architecture schématisées dans la figure ci-dessous.

1-Extraction des données

La première étape consiste à extraire les données des systèmes source vers une zone de travail standard afin d’influencer le moins possible ceux-ci.

2-Data Vault

La deuxième étape en est une d’intégration et d’historisation. La structure de données du Data Vault a pour objectif d’intégrer les différents concepts commerciaux et de stocker l’historique de ces concepts. Certains systèmes transactionnels ne gardent pas ou ne gardent qu’une petite partie historique des différents états de la donnée dans son cycle de vie. Le Data Vault vient donc régler ce problème. De plus, sa structure simple et brute de données (aucune transformation n’est opérée sur les données) permet de simplifier et de paralléliser son chargement. L’utilisation du modèle Data Vault dans cette architecture permet aussi de séparer les étapes d’intégration des données de celles de la transformation.

3-Création du modèle de consommation

La troisième étape est celle de la création du modèle de données de consommation, typiquement un modèle dimensionnel. Cependant, ce modèle de données est virtuel et produit par le biais de vues (données non stockées physiquement). La rapidité des engins de base de données In-Memory nous permet d’effectuer des requêtes sur d’immenses volumes de données sans devoir stocker physiquement les données. De plus, l’intégration des données a déjà été faite à l’étape du Data Vault, il faut donc seulement se soucier de la transformation de celles-ci.

4-Consommation

La quatrième étape est la consommation des données par l’utilisateur par le biais des outils de rapports ou de tableau de bord qui se connectent directement sur le modèle dimensionnel ou sur une couche sémantique.

Cette architecture de données possède comme avantage de séparer la complexité de l’intégration des données et celle de la transformation en deux étapes disjointes. De plus, la rapidité des bases de données In-Memory vient éliminer la complexité que constitue la navigation dans la structure normalisée (3NF) du Data Vault. Par contre, le prix du stockage ou d’une licence In-Memory est encore très élevé actuellement. Ceci peut donc freiner les entreprises à se diriger vers une telle solution. On peut cependant penser que celui-ci diminuera de façon significative dans les prochaines années.

Finalement, cette architecture n’est qu’une idée que je n’ai jamais eu la chance de mettre en œuvre. Je crois qu’elle mérite d’être prise en considération lorsque l’on regarde les possibilités d’un entrepôt de données sur une base de données In-Memory. J’espère pouvoir vous en prouver les avantages réels dans un prochain blogue.

Partager cet article
  


CONTACT

agileDSS Inc.
407, rue McGill, bureau 500.
Montréal (QC) H2Y 2G3.

info@agiledss.com
(514) 788-1337