Datawarehouse vs Datalake? Nog een fancy buzz-woord!

We zijn inmiddels wel gewend om dood gegooid te worden met fancy buzz-words die vooral goed scoren in marketing, op de PowerPoint sheets, in (pre-)sales gesprekken en in blogs zoals deze. Een van de buzz-words waar ik de laatste tijd erg enthousiast over wordt is de Delta Lake protocol (1)   , open source software gebaseerd op Parquet datafiles met ACID transaction compliance als groot bijkomend goed. 

Er wordt tegenwoordig gesproken over de Lakehouse architecture (2) wat eigenlijk de good-ol’ Datawarehouse is in een modern jasje. Ietwat te kort door de bocht, maar daar is deze architectuur goed voor in te zetten. Tegenwoordig worden datamanagement implementaties vaak niet meer ondersteund door datawarehouses op traditionele databases, wel op storage services van de grote cloud providers zoals Microsoft, Amazon en Google. Meestal in de vorm van een Databricks of een Snowflake “alles-in-1” setup. Met de Lakehouse architectuur wordt de traditionele datawarehousing gebracht naar deze moderne platforms, eigenlijk deden we met datawarehousing toch wel veel goeds! 

Databricks is een cloud-based data-engineering en -sience platform gebaseerd op het open-source distributed-computeplatform Apache Spark.  Het verpakt heel mooi een schaalbaar stukje compute-power samen met een front-end Jupyter style Notebook interface, waarmee data-engineers en -scientists goed kunnen (samen)werken.  Databricks is beschikbaar op Microsoft Azure, Amazon AWS en Google GCP. 

Delta Lake wordt ondersteund door het Delta Table file format en maakt onder water gebruik van het Aparche Parquet file format, een populair columnar based storage-format. Een van de belangrijkste toevoegingen t.o.v. Parquet is de mogelijkheid voor het hebben van versies op deze tabellen. Elke transactie (INSERT, UPDATE of DELETE) wordt bijgehouden in een log waardoor tijdrijzen op data mogelijk gemaakt wordt.  In deze blogpost van Databricks vind je voorbeelden van concrete toepassingen. Het gebruikte protocol voor de transactielog is open source en gewoon in een Github repo beschikbaar! Met deze toepassing kan ook volledige ACID compliance gegarandeerd worden! Hoe dat zit? Kun je hier lezen. 

Als een van de initiatiefnemers van de Delta Lake protocol en biedt Databricks nog steeds support aan het open-source project. Daarbij zijn tabellen gemaakt via Databricks standaard in delta format opgeslagen, tenzij expliciet aangegeven dat een ander format gebruikt moet worden. Er is [uitgebreide documentatie beschikbaar] (Welcome to the Delta Lake documentation — Delta Lake Documentation) van het Delta protocol. 

Wil je eens sparren over je datastrategie? Past daar zo’n fancy DataLakehouse bij? 

Wij helpen graag het dynamische speelveld te verkennen en alle mogelijkheden op een rijtje te zetten. Het speelveld kan groot zijn waardoor je door de bomen het bos niet meer kunt zien. Ook wordt er fanatiek gebruik gemaakt van buzz-words, mijzelf inclusief ;-). 

Joerie Brugts – Subject Matter Expert (Data Engineering) – Conspect 

Uitgelicht

klantcase Philadelphia

Hoe een landelijke zorginstelling werkt aan een effectieve informatievoorziening Werkt u binnen uw zorgorganisatie ook met zelforganiserende teams? Dan zult u erkennen dat dit meer

Lees meer »