BLOG! – Data Vault 2.0 deel 1/3

Het verwerken van grote hoeveelheden data voor steeds diepgaandere vraagstukken is voor veel organisaties een probleem. Hoe kunnen bedrijven hier agile mee om gaan? IntoAnalytics helpt organisaties met het ontwikkelen van een data-as-an-asset strategie. Wij zien de Data Vault als dé methode om een flexibel en schaalbaal Enterprise Data Warehouse te bouwen, zodat onze klanten controle krijgen over hun data. 

In dit eerste deel van drie blogs gaan we dieper in op de betekenis van Data Vault en hoe deze zich verhoudt tot de bijvoorbeeld dimensionele modellen en data lakes. 

In deel 2 kijken we naar de methode. In het laatste deel zal er worden gekeken naar tooling om dit proces te automatiseren.  

Wat is Data Vault? 

“De Data Vault is een op details georiënteerde, historische tracking en uniek gekoppelde set van genormaliseerde tabellen die een of meer functionele bedrijfsgebieden ondersteunen. Het is een hybride benadering tussen de 3de normaalvorm (3nf) en het sterschema. Het ontwerp is flexibel, schaalbaar, consistent en aanpasbaar aan de behoeften van de onderneming. Het is een datamodel dat specifiek is ontworpen om te voldoen aan de behoeften van de hedendaagse datawarehouses voor ondernemingen.” [1] 

De Data Vault is een methode die naast het model ook de architectuur en methodology voorschrijft. Het is technologie-onafhankelijk en past daardoor in iedere organisatie, dus ook in die van jou! 

Data Vault vs Dimensioneel modelleren vs Data lake 

Al heel lang maken we gebruik van dimensionele modellen om informatie op een aantal doorsnedes te kunnen rapporteren en visualiseren. Deze methode heeft echter enkele nadelen; 

  • Verandering van of in bronsystemen hebben grote impact op het model en onderliggende rapportages. 
  • Er is een continue trade-off tussen wijzigende informatiebehoefte en de ontwikkeling hiervan. In de praktijk resulteert dit er in dat relatief grote ontwikkelteams relatief weinig resultaat leveren.  
  • Toevoegen van steeds meer data leidt tot schaalbaarheids- en performanceproblemen 

Met de komst van schaalbare cloudplatformen, kwam de mogelijkheid om alle data op te slaan in een analytische omgeving. Deze ontwikkeling gaf analisten de mogelijkheid om eenvoudig analyses te maken op data die eerder niet voor handen was. De kwaliteit van data lakes is vaak gebrekkig doordat brondata ongevalideerd bij analisten komt. Als gevolg hiervan zijn analisten veel tijd kwijt aan het interpreteren en schonen van data. Daarnaast is GDPR-compliance een probleem bij veel data lakes, doordat volledige datasets worden ingeladen. Het is niet voor niets dat data lakes vaak data swamps worden genoemd.  

De Data Vault methode bestaat al wat langer en kan niet vergeleken worden met dimensionele modellen en data lakes. De Data Vault kan beschouwd worden als het digitale archief van de organisatie en zou daardoor als bron kunnen dienen voor dimensionele modellen of een data lake. Tegelijk biedt de Data Vault uitstekende mogelijkheden voor (real-time) statistische analyses of machine learning modellen. Het bevragen van de Data Vault is door de wijze waarop deze is gemodelleerd zeer snel, door dit te combineren met een Mass Parallel Processing omgeving zoals bijvoorbeeld Greenplum, Exasol (on-premise) of Azure (cloud) is een extreem schaalbaar en performante analytics platform te realiseren. Doordat Business Rules in de Data Vault zitten, kunnen kwalitatief hoogwaardige data lakes eenvoudig worden gerealiseerd. Dimensionele modellen kunnen op de Data Vault worden gerealiseerd waardoor enorme flexibiliteit ontstaat. Voor het uitbreiden van het model kan simpelweg de selectie worden aangepast en is van migreren en herladen van data geen sprake. Daarnaast biedt de Data Vault nog andere voordelen zoals auditing van alle records en GDPR-compliance by design. Bovendien kan de Data Vault uitstekend dienen als bron voor Data Quality Governance.  

Bron Data Linstedt [1]:  

Ook bezig met uw data-as-an-asset strategie? Neem contact op voor meer over Data Vault