Modernissa liiketoiminnassa dataa syntyy jatkuvasti eri järjestelmistä: verkkosovelluksista, IoT-laitteista, asiakaspalvelujärjestelmistä, tuotantojärjestelmistä sekä monista ulkoisista datalähteistä. Vaikka dataa kerätään paljon, sen hyödyntäminen analytiikassa tai tekoälyratkaisuissa ei ole aina suoraviivaista. Data voi olla hajallaan eri järjestelmissä, eri formaateissa ja vaihtelevalla laadulla.
Tämän vuoksi organisaatiot tarvitsevat selkeän mallin, jonka avulla dataa voidaan kerätä, hallita ja jalostaa vaiheittain analytiikan ja liiketoiminnan käyttöön. Yksi lähestymistavoista tähän on Medallion Lakehouse -arkkitehtuuri, joka yhdistää datalaken skaalautuvuuden ja kustannustehokkuuden tietovarastojen rakenteelliseen analytiikkakyvykkyyteen.
Medallion-malli tarjoaa selkeän rakenteen datan käsittelylle ja auttaa organisaatioita rakentamaan dataputkia, joissa data jalostuu vaiheittain raakadatasta käyttökelpoiseen muotoon.
Modernin data-alustan perusta
Lakehouse-arkkitehtuurissa dataputket rakentuvat siten, että data kulkee vaiheittain Bronze-, Silver- ja Gold-kerrosten läpi.
Bronze-kerros sisältää raakadataa, joka on tallennettu suoraan S3-bucketteihin. Tässä vaiheessa dataa ei käytännössä käsitellä, vaan tavoitteena on säilyttää lähdedata mahdollisimman muuttumattomana myöhempää käyttöä varten.
Seuraavassa vaiheessa data siirretään Silver-kerrokseen, jossa raakadataa aletaan jäsentää ja formatoida. Tässä vaiheessa esimerkiksi eri lähteistä tulevaa dataa voidaan yhdistää ja muuttaa yhtenäiseen muotoon. Silver-tason data on jo analytiikan kannalta käyttökelpoista, mutta sen hyödyntäminen voi edelleen vaatia monimutkaisempaa käsittelyä.
Gold-kerroksessa data jalostetaan edelleen liiketoiminnan käyttöön. Tässä vaiheessa tehdään esimerkiksi valmiita join-operaatioita, datan puhdistusta ja analytiikkaa varten optimoituja rakenteita. Tavoitteena on, että Gold-tason dataa voidaan käyttää suoraan raportoinnissa, analytiikassa tai dashboardeissa.
Esimerkiksi Silver-tasolla datasetissä voi olla useita aikaleimoja, kuten milloin data luotiin, milloin sitä muokattiin viimeksi ja milloin tapahtuma kirjattiin. Gold-tasolla datasta voidaan säilyttää vain analytiikan kannalta olennaisimmat aikaleimat, jolloin datasetistä tulee selkeämpi ja helpommin käytettävä.
Datan mallinnus Silver- ja Gold-tasoilla
Kun dataa jalostetaan analytiikkaa varten, voi käyttää esimerkiksi star schema -mallia, joka koostuu kahdesta keskeisestä taulutyypistä:
Dimensiotaulut sisältävät suhteellisen staattista dataa, kuten esimerkiksi:
osoitteet
projektit
käyttäjät
tuotteet
Faktataulut puolestaan sisältävät tapahtumapohjaista dataa, joka muuttuu jatkuvasti. Tällaisia voivat olla esimerkiksi:
ostotapahtumat
IoT-laitteiden tapahtumat
sovellusten tapahtumalokit
Faktatauluissa jokainen tapahtuma tallennetaan omaksi rivikseen. Dimensiotaulut puolestaan tarjoavat kontekstin näille tapahtumille.
Gold-tasolla data on usein jo mallinnettu valmiiksi tähän rakenteeseen, jolloin analytiikkatyökalujen on helppo tehdä kyselyitä ilman monimutkaisia join-operaatioita.
Miltä Medallion Lakehouse-arkkitehtuuri näyttää AWS-ympäristössä?
Kun Medallion Lakehouse-arkkitehtuuri toteutetaan AWS:ssä, se rakentuu tyypillisesti useiden AWS-palveluiden ympärille. Tärkeässä roolissa ovat erityisesti Amazon S3, AWS Glue sekä AWS Lake Formation, jotka yhdessä muodostavat modernin datalake-ympäristön perustan.
Tässä arkkitehtuurissa Lake Formation toimii datan hallinnan keskeisenä palveluna. Sen avulla voidaan hallita datan käyttöoikeuksia, metatietoja ja datan käyttöä eri järjestelmissä. Samalla se mahdollistaa datan hallitun käytön analytiikkatyökaluissa ja dataputkissa.
Varsinainen data tallennetaan datalakeen Amazon S3:een, joka toimii kustannustehokkaana ja skaalautuvana tallennusratkaisuna suurille datamäärille. Medallion Lakehouse-mallissa eri kerrokset voidaan erottaa toisistaan esimerkiksi S3-buckettien tai hakemistorakenteen avulla.
Pronssikerroksessa data tallennetaan suoraan S3-bucketteihin lähes alkuperäisessä muodossaan. Silver- ja Gold-kerroksissa dataa käsitellään ja ja tallennetaan uuteen S3 Tables:iin, joka tarjoaa kustannustehokkaan version relaatiotietokannasta, ja jossa data on jo jäsennelty analytiikkaa varten.
Datan muokkaus ja siirtäminen kerrosten välillä tapahtuu tyypillisesti AWS Glue -skriptien avulla, jotka käsittelevät dataa ja muodostavat uusia datatauluja seuraaviin kerroksiin.
Suorituskyky ja kustannusten optimointi AWS:ssä
Medallion Lakehouse-arkkitehtuuri skaalautuu erityisen hyvin AWS:ssä. Yksi keskeinen syy tähän on se, että datalake hyödyntää kustannustehokasta objektitallennusta.
Amazon S3 mahdollistaa suurten datamäärien tallentamisen huomattavasti edullisemmin kuin perinteiset tietokantaratkaisut. Kun raakadata säilytetään Bronze-kerroksessa S3:ssa, sitä voidaan säilyttää pitkään ilman merkittäviä kustannuksia.
Dataputkien käsittely voidaan puolestaan toteuttaa serverless-pohjaisesti, esimerkiksi AWS Glue -palvelun avulla. Tämä tarkoittaa, että laskentakapasiteettia käytetään vain silloin kun dataputket ajetaan, mikä auttaa optimoimaan kustannuksia.
Kustannustehokkuutta parantaa myös se, että samaa dataa ei käsitellä tarpeettomasti useaan kertaan. Bronze-kerroksessa data voidaan tallentaa partitionoituna, jolloin dataputket voivat käsitellä vain uusia tai muuttuneita datapartitioita.
Silver- ja Gold-tasoilla voidaan puolestaan hyödyntää Lake Formationin snapshot-ominaisuutta, joka vertaa viimeisintä snapshot-versiota nykyiseen dataan. Näin dataputki pystyy tunnistamaan muutokset ja käsittelemään vain uutta tai päivittynyttä dataa, mikä vähentää sekä laskentaa että kustannuksia.
Suunnitteluperiaatteita Medallion Lakehouse-arkkitehtuurin toteuttamiseen
Vaikka Medallion Lakehouse-arkkitehtuuri on konseptiltaan yksinkertainen, sen onnistunut toteutus vaatii selkeitä suunnitteluperiaatteita. Kerroksellisen mallin tavoitteena on säilyttää datan käsittely loogisena ja hallittavana samalla, kun data jalostuu vaiheittain analytiikkaa varten.
Yksi keskeinen periaate on, että Bronze-kerroksen data säilytetään mahdollisimman muuttumattomana. Tällöin alkuperäinen lähdedata on aina saatavilla myöhempää käsittelyä tai virhetilanteiden selvittämistä varten.
Toinen tärkeä periaate on kerrosten selkeä vastuunjako. Silver-kerroksessa dataa jäsennellään ja standardoidaan, kun taas Gold-kerroksessa data muokataan analytiikkaa varten optimoituun muotoon. Kun jokaisella kerroksella on selkeä rooli, dataputket pysyvät hallittavina ja arkkitehtuuri säilyy selkeänä myös datamäärien kasvaessa.
Lisäksi dataputkien suunnittelussa kannattaa huomioida inkrementaalinen datankäsittely. Kun käsitellään vain uutta tai muuttunutta dataa esimerkiksi partitionoinnin tai snapshot-vertailujen avulla, voidaan parantaa sekä suorituskykyä että kustannustehokkuutta.
Lakehouse-arkkitehtuuri analytiikan ja tekoälyn tukena
Kun data on jalostettu Gold-kerroksessa analytiikkaa varten optimoituun muotoon, sitä voidaan hyödyntää monipuolisesti erilaisissa data- ja AI-ratkaisuissa. Rakenteinen ja laadukas dataset toimii esimerkiksi tietopohjana generatiivisille AI-ratkaisuille, jotka voivat hakea ja hyödyntää dataa kyselyiden, analyysin tai päätöksenteon tukena.
Tällaisissa ratkaisuissa AI-mallit eivät välttämättä tarvitse suoraa koulutusta organisaation omalla datalla. Sen sijaan ne voivat hakea ajantasaista tietoa lakehouse-arkkitehtuurissa hallitusta datasta. Kun data on Silver- ja Gold-tasoilla puhdistettu, yhdistetty ja mallinnettu selkeään rakenteeseen, AI-järjestelmien on helpompi hakea siitä relevanttia tietoa esimerkiksi raportointia, analytiikkaa tai asiakaspalvelua varten.
Näin lakehouse-arkkitehtuuri toimii paitsi analytiikan ja raportoinnin perustana myös luotettavana tietolähteenä moderneille AI-ratkaisuille.
Yhteenvetona
Medallion Lakehouse -arkkitehtuuri tarjoaa selkeän mallin datan hallintaan ja jalostamiseen moderneissa data-alustoissa. Jakamalla data Bronze-, Silver- ja Gold-kerroksiin voidaan varmistaa, että raakadata säilyy muuttumattomana, samalla kun analytiikkaa varten rakennetaan yhä jalostetumpia dataset-rakenteita.
AWS-ympäristössä tämä arkkitehtuuri voidaan toteuttaa tehokkaasti hyödyntämällä palveluita kuten Amazon S3, S3 Tables, AWS Glue ja AWS Lake Formation. Yhdessä nämä mahdollistavat skaalautuvan, kustannustehokkaan ja hallittavan datalake-ratkaisun.
Kun dataputket on suunniteltu oikein ja kerrosten roolit on määritelty selkeästi, Medallion Lakehouse-arkkitehtuuri tarjoaa vahvan perustan analytiikalle, raportoinnille sekä data- ja AI-ratkaisuille.
Tiiviimmän katsauksen liiketoiminnallisiin hyötyihin voit lukea seuraavasta osasta: Datasta arvokkaisiin päätöksiin – Medallion lakehouse liiketoiminnan tukena
Haluatko tietää lisää AWS tekoälypalveluista? Ota yhteyttä!
Harri Ilvonen
harri.ilvonen@skillwell.fi
+358 400 830 660
Jari Ikävalko
jari.ikavalko@skillwell.fi
+358 50 386 5590














