Leer in 5 minuten
- Waar je op moet letten bij een migratie naar de cloud
- Waarom Matillion een interessant optie is voor ELT in de cloud
- Welke drie voordelen Matillion je biedt
Je bedrijf is bezig met de overstap naar de cloud. Maar hoe haal je allerlei data binnen in je nieuwe cloud dataplatform en transformeer je die naar het juiste datamodel? Een ELT-tool waarbij je helemaal los kunt met code geeft flexibiliteit, maar vraagt specialistische kennis. Heb je geen die-hard cloud data engineers in huis? Dan is Matillion absoluut de overweging waard. We geven je drie goede redenen, met één kleine kanttekening.
Er valt veel te zeggen voor een overstap naar de cloud. Want een IT-omgeving in de cloud biedt meer snelheid, schaalbaarheid, continuïteit en veiligheid, scheelt in beheer en is kostenefficiënter – allemaal voordelen[interne link invoegen naar https://ptst1.webfactory-brands-dev.vinci-energies.com/data-architectuur/blog/de-noodzaak-voor-een-moderne-data-architectuur/] waar al het nodige over is geschreven. Steeds meer organisaties kiezen dan ook voor een cloud-first strategie: ze willen zo veel mogelijk van hun IT-landschap naar de cloud halen en nemen daarbij hun data-architectuur mee. Dit betekent ook dat ze keuzes moeten maken over de technologie die ze in de cloud inzetten voor die data-architectuur. Een ELT-tool is daar een belangrijk onderdeel van, want daarmee kun je allerlei soorten data uit verschillende systemen naar de cloud halen en die data omzetten naar het datamodel dat je nodig hebt voor je informatievoorziening.
De vraag is wat de juiste ELT-tool is voor jouw organisatie. Wil je maximale flexibiliteit bij je data-integratie in de cloud? Dan heeft het code first-principe misschien je voorkeur. In dat geval ga je voor een tool waarmee je heel veel in code doet. Zo’n tool is krachtig, maar vergt specifieke kennis. En wat als je nu geen data engineers met de benodigde skills en ervaring in huis hebt? Matillion is een ELT-tool met een handige grafische userinterface, die je helpt je cloud-first strategie te realiseren zonder ingewikkeld codeerwerk. Dat maakt de tool een interessante optie voor veel bedrijven die bezig zijn met een cloudtransitie. Dit zien wij als de sterke punten van Matillion:
- Lage instap en hoge productiviteit
- Sterke ondersteuning voor metadata gedreven data ingestion
- Geoptimaliseerd voor de cloud
Hieronder lees je meer over elk van deze punten.
1. Lage instap en hoge productiviteit bij data-integratie in de cloud
Eén van de voordelen van de cloud is dat je infrastructuur met een paar klikken voor je klaarstaat en je snel aan de gang bent. Je hebt geen last van lange aanlooptijden en hoeft niet te wachten tot de hardware is geïnstalleerd, maar je kunt binnen een dag al je eerste data verladen. Matillion wordt geleverd als een standaard VM-image die je normaalgesproken in een kwartiertje in je eigen cloudomgeving hebt draaien. Je hoeft niets lokaal te installeren voor je ontwikkelaars, ze hebben aan een webbrowser voldoende om data pipelines te bouwen met Matillion.
Behalve snel kun je ook makkelijk uit de voeten met Matillion. Daarin speelt de grafische webinterface van de ELT-tool met zijn standaard bouwblokken een belangrijke rol. Zo heb je meer dan tachtig connectoren naar databronnen zoals databases, SaaS-producten en filesystemen. Je hoeft zelf dus niet de toegangsgeheimen tot deze bronnen te doorgronden en scripts te schrijven om er data uit te kunnen halen. Praktisch zijn ook de herkenbare SQL-bewerkingen, zoals pivot- en window-functies of het aanmaken van tabellen en views. Het is zelfs zo dat als je met SQL hebt gewerkt, je in principe ook met Matillion overweg kunt. Zo maak je met weinig voorkennis direct veel snelheid bij het bouwen van je data pipelines. Ook de mogelijkheid tot documentatie bij de jobs is goed, het is een aanrader om gebruik van te maken van deze functionaliteit. Daarmee plaats je bijvoorbeeld heel eenvoudig ondersteunende tekst bij de grafische elementen en laat je zien wat voor data pipeline je hebt gemaakt en hoe deze werkt, zodat andere ontwikkelaars daarop verder kunnen borduren. Hieronder zie je een voorbeeld van zo’n data pipeline met documentatie. Daarin gaat het om een simpele job, maar je kunt je voorstellen hoe handig het is om te weten hoe een data pipeline met dertig of veertig stappen in elkaar zit. Deze weergaves maken jobs makkelijk overdraagbaar, maar zijn ook voor jezelf een mooi geheugensteuntje als je na een tijdje weer aan een data pipeline werkt. Een ander voordeel is dat je fouten sneller en makkelijker ziet in een grafische afbeelding. Wil je naast het gebruik van de standaard functionaliteit van Matillion toch zelf scripts schrijven, om complexere dingen te doen? Ook dat kan en Matillion laat je SQL en Python scripts opnemen als component binnen een data pipeline.
2. Sterke ondersteuning voor metadata gedreven data ingestion met meer efficiency
Je metadata heb je al en daar maakt Matillion slim gebruik van: op basis van standaardpatronen kun je snel en efficiënt veel data-objecten ontsluiten. Voor deze metadata gedreven data ingestion biedt Matillion je een krachtige toolkit. Daarmee vraag je eenvoudig de structuur van een tabel op en gebruik je deze metadata om vervolgacties op basis van deze parameters te laten uitvoeren. Het is bijvoorbeeld mogelijk de structuur van een brontabel uit te lezen, te detecteren dat er een nieuwe kolom is bijgekomen en deze kolom direct te laten toevoegen aan je doeltabel. Zo vang je veranderingen in je data pipelines automatisch op en verlaag je het onderhoud van je dataplatform.
Het is eveneens mogelijk gestandaardiseerde data pipelines te bouwen en die te doorlopen op basis van de metadata van een bron. Door zo’n standaard pipeline kun je oneindig veel tabellen heen halen en daar dezelfde databewerkingen, zoals het historiseren van data, op laten uitvoeren. Dat scheelt je een hoop handmatig werk! Het resultaat is bovendien dat je minder objecten in je ELT-platform hebt, wat het overzichtelijker maakt. Daarnaast is er minder onderhoud nodig en voer je eenvoudig aanpassingen uit op je verladingen. In onderstaand plaatje zie je een voorbeeld van zo’n gestandaardiseerde data pipeline.
Voor de cloud geoptimaliseerd
Matillion is echt ontwikkeld voor de cloud en dat merk je aan verschillende dingen. Om te beginnen draait de ELT-tool binnen de private cloud van je organisatie, dus veilig in je eigen bubbel. Of je nu gebruikmaakt van MS Azure, AWS of GCP, je data blijven in je (virtuele) bedrijfsnetwerk en gaan niet over het publieke internet. Zo heb je dus altijd controle over je gegevens. Voor sommige organisaties is dit zelfs een must met het oog op security- en compliance-eisen.
Daarnaast laat Matillion zich als cloud-native ELT-tool eenvoudig integreren met andere cloudoplossingen. Denk bijvoorbeeld aan authenticatieplatformen zoals Okta en MS Azure AD, voor een gecentraliseerde authenticatie van gebruikers, of aan cloud storages. De koppeling met secret managers zoals MS Azure Key Vault zorgt dan weer voor een veilige en centrale opslag van wachtwoorden. Zo hoef je niet op meerdere plaatsen wachtwoorden te veranderen.
Matillion helpt je bovendien goed gebruik te maken van cloud dataplatforms, zoals Snowflake. Ten eerste kun je vanuit je Matillion-job het sizen van je Snowflake-warehouse regelen. Ten tweede gaan je data alleen via jouw Matillion VM om je cloud dataplatform binnen te komen. Zijn je data daar eenmaal, dan blijven ze er ook. Daarbij zal Matillion de bewerking van data na het binnenhalen daarvan overlaten aan je cloud dataplatform. De tool vertaalt je grafisch gebouwde data pipelines naar SQL-codes en stuurt die naar je cloud dataplatform om daar te worden uitgevoerd. Matillion definieert dus alleen je logica en verwerkt zelf geen data, waardoor het bewerkingsproces veel sneller gaat. Zo komt de kracht van het cloud dataplatform het beste tot zijn recht en is er zo min mogelijk netwerkverkeer. Het scheelt je ook in de kosten, want in het licentiemodel van Matillion betaal je voor de uptime van de tool, niet voor het gebruik. Het is een eenvoudig en transparant model, waarbij je goed kunt voorspellen wat je moet betalen.
Tot slot schakel je met Matillion eenvoudig rekenkracht bij als je die nodig hebt voor zware bewerkingen bij het bouwen van een lastige data pipeline. Zo profiteer je van de schaalbaarheid van de cloud.
Waar je op moet letten bij de inzet van Matillion
Onze conclusie? Je kunt niet om Matillion heen als je naar de cloud gaat. Want met de toegankelijkheid van deze ELT-tool en een metadatagedreven aanpak kun je ook met een klein team al snel veel meters maken bij het neerzetten van een cloud dataplatform. Maar in die snelheid schuilt ook het gevaar dat er een grote, ondoorzichtige brij aan data pipelines ontstaat. Daarmee is het extra belangrijk om een goede, gelaagde data-architectuur op te zetten, waarbij elke laag een duidelijk doel heeft. En vergeet ook niet ontwerprichtlijnen te bepalen die ervoor zorgen dat je data pipelines op een consistente en begrijpelijke manier worden gebouwd.
Om dit te illustreren, geven we je twee voorbeelden. Eerder in dit artikel vertelden we al dat Matillion data pipelines vertaalt naar standaard SQL code en deze laat uitvoeren door het cloud dataplatform. De volgorde van de stappen in een data pipeline kan echter de performance van de uiteindelijke query beïnvloeden. Kies dus voor de juiste volgorde, bijvoorbeeld door zo snel mogelijk data te filteren, en zorg dat al je ontwikkelaars dat doen. Een tweede voorbeeld gaat over het uitvoeren van acties, dat kan binnen Matillion op verschillende manieren. Zo kun je de benodigde velden uit een voorgaande stap binnen een data pipeline selecteren met de calculator-, rename- of join-functie. Om de herkenbaarheid van data pipelines binnen een team te vergroten is het verstandig om één manier af te spreken.
Maakt je organisatie dus de transitie naar de cloud met behulp van Matillion? Let er dan op dat je de ELT-tool goed inzet, met een duidelijke werkwijze voor iedereen die er data pipelines mee bouwt.
Ook zal Matillion de bewerking van data na het binnenhalen daarvan overlaten aan je cloud datawarehouse.