Le Data Warehouse d’Entreprise selon Bill Inmon

Dans l’article précédent (L’utilité d’un data warehouse), je me suis efforcé de montrer l’intérêt pour une organisation de mettre en place un data warehouse unique plutôt que des data marts isolés mis en œuvre à chaque nouveau besoin.

Il existe plusieurs architectures possibles pour un Système d’Information Décisionnel (SID) à l’échelle d’une organisation. Dans cet article, je vais présenter l’architecture recommandée par Bill Inmon, l’inventeur du concept de Data Warehouse.

La figure suivante représente de manière simplifiée un SID conçu selon l’architecture qu’il propose.

Expert BI DAX PowerPivot Power BI Décisionnel Business Intelligence - CIF-300x209 Le Data Warehouse d'Entreprise selon Bill Inmon

Dans une telle architecture, dénommée « Corporate Information Factory » (CIF) par Bill Inmon, le SID est constitué des cinq couches suivantes :

  • La couche d’acquisition est une couche de traitements permettant d’extraire (« Extract »), de transformer (« Transform ») et de charger (« Load ») les données depuis chacun des SIO vers le data warehouse centralisé. L’intérêt de cette couche est d’être mutualisée : elle n’est pas constituée de traitements ETL indépendants et parfois redondants alimentant chacun son propre data mart, mais au contraire d’un ensemble cohérents de traitements alimentant un unique data warehouse et pour lesquels les données source ne sont extraites qu’une seule fois.
  • La couche Data Warehouse est une couche de stockage contenant un data warehouse centralisé qui est unique pour l’organisation et que l’on qualifie parfois de Data Warehouse d’Entreprise. Dans cette architecture, le data warehouse est une base de données relationnelle conçue avec une approche dite « top-down », c’est-à-dire à partir d’un modèle de données d’entreprise préalablement défini. Le modèle du data warehouse est de type entité-association (modèle normalisé le plus souvent en 3ème forme normale) par opposition à un modèle multidimensionnel (ou en étoile) et il contient des données dites « atomiques », c’est-à-dire du niveau le plus détaillé possible. Dans l’architecture CIF, le data warehouse centralisé n’a pas vocation à être interrogé directement par les utilisateurs mais sert de source unique de données pour l’alimentation d’autres applications destinées aux utilisateurs (data marts ou outils de data mining). Selon la définition donnée par Bill Inmon, le data warehouse est :
    • Orienté Sujet (« Subject Oriented ») : il peut être utilisé pour analyser un certain sujet (par exemple le sujet des ventes ou du marketing)
    • Non volatile: les données insérées dans le data warehouse ne sont jamais modifiées, ni supprimées.
    • Intégré: les données d’un data warehouse peuvent provenir de différentes sources et elles sont alors intégrées et mises en cohérence dans le data warehouse.
    • Chronologique (« Time-variant ») : contrairement à une base de données opérationnelle, un data warehouse contient des données historisées (chaque donnée possède une période de validité).
  • La couche de distribution est une couche de traitement dont l’objet est d’alimenter à partir du data warehouse centralisé les différentes applications qui seront exploitées par les utilisateurs.
  • La couche Data Marts est une couche de stockage dans une base de données relationnelle contenant les données distribuées par la couche de distribution et en provenance du data warehouse centralisé. Tout comme pour la première architecture, les data marts servent à satisfaire les besoins de restitution des différents départements de l’entreprise et sont le plus souvent conçus avec la modélisation multi-dimensionnelle (en étoiles ou en flocons). Les data marts contiennent en général des données agrégées par rapport à celles du data warehouse.
  • Enfin la couche de restitution est constitué d’outils d’analyse ou de reporting servant d’interfaces entre les utilisateurs et les data marts. Dans certains cas, des cubes OLAP peuvent servir d’intermédiaires entre les data marts et les outils de restitution.

Remarque : le plus souvent, les outils d’exploration de données (« data mining ») ne s’appuient pas sur des data marts mais sur les données du data warehouse via la couche de distribution.

En synthèse, les avantages apportés par cette architecture sont les suivants :

  1. L’effort d’acquisition des données depuis un système opérationnel ne doit pas être sans cesse renouvelé à chaque création d’un nouveau data mart car la couche d’acquisition permet une mutualisation des traitements.
  2. La modélisation en 3ème forme normale du data warehouse facilite l’alimentation d’applications autres que des data marts pour lesquelles la modélisation multi-dimensionnelle ne serait pas appropriée (applications de data mining par exemple).
  3. La présence du data warehouse centralisé garantit en partie la cohérence des données entre les différents data marts et donc la cohérence des informations présentées par les différentes restitutions.

Remarque : la cohérence des données des différents data marts n’est pas totalement garantie car, même si les données du data warehouse sont cohérentes et s’appuient sur un langage commun aux différents départements de l’organisation, rien n’empêche les concepteurs des data marts de réintroduire de l’incohérence par la mise en œuvre de règles de gestion hétérogènes (par exemple en donnant dans deux data marts le même nom à deux indicateurs alimentés avec des règles différentes.

Auteur

Expert BI DAX PowerPivot Power BI Décisionnel Business Intelligence - emmanuel_ferragu_effect_229-150x150 Le Data Warehouse d'Entreprise selon Bill Inmon
Emmanuel Ferragu
Fort d'une expérience de 20 ans dans la BI, j'interviens en tant qu’architecte et modélisateur d’entrepôts de données. Je suis également l’auteur du livre "Modélisation des Systèmes d’Information Décisionnels" dont le but est de mettre en exergue des patterns avec leurs avantages et inconvénients.
Posts liés
error: Contenu protégé !