AWS-polkuAWS Kickstart - AWS Polku
AWS Kickstart
AWS Go Live - AWS Polku
AWS Go Live
AWS Data and AI Boost - AWS Polku
AWS Data & AI Boost
AWS Cloud Native Transformation - AWS Polku
AWS Cloud Native Transformation
AWS Future-Ready - AWS Polku
AWS Future-Ready
AWS PilvipalvelutAWS integraatiot - AWS Integration Platform
AWS Integraatioalusta
AWS konsultointi ja ylläpito - Skillwell Cloud Operations Service
AWS Konsultointi ja Ylläpito
Skillwell Well Architected Review
AWS Well Architected Arvio
SaaS palvelukehitys - SaaS Development Service
SaaS Palvelukehitys
Tekoäly- ja asiakaspalveluratkaisutSkillwell Generative Ai - Generative Ai
Generatiivinen Tekoäly
Skillwell Tekoälyagentit - AI Agents
Tekoälyagentit
Skillwell Amazon Connect
Amazon Connect
Skillwell Smart Customer Service
Älykäs Asiakaspalvelu
CONTROL PLANEUniversal SaaS Control Plane
Universal SaaS Control Plane
KALUSTONHALLINTAFleet management
PEKAS
VideoratkaisutVideoratkaisut - Skillwell LIVEL Services
LIVEL Services
Ajankohtaista
Referenssit
Blogi
Tietoa meistä
Ota yhteyttä

Modernissa liiketoiminnassa dataa syntyy jatkuvasti eri järjestelmistä: verkkosovelluksista, IoT-laitteista, asiakaspalvelujärjestelmistä, tuotantojärjestelmistä sekä monista ulkoisista datalähteistä. Vaikka dataa kerätään paljon, sen hyödyntäminen analytiikassa tai tekoälyratkaisuissa ei ole aina suoraviivaista. Data voi olla hajallaan eri järjestelmissä, eri formaateissa ja vaihtelevalla laadulla.

Tämän vuoksi organisaatiot tarvitsevat selkeän mallin, jonka avulla dataa voidaan kerätä, hallita ja jalostaa vaiheittain analytiikan ja liiketoiminnan käyttöön. Yksi lähestymistavoista tähän on Medallion Lakehouse -arkkitehtuuri, joka yhdistää datalaken skaalautuvuuden ja kustannustehokkuuden tietovarastojen rakenteelliseen analytiikkakyvykkyyteen.

Medallion-malli tarjoaa selkeän rakenteen datan käsittelylle ja auttaa organisaatioita rakentamaan dataputkia, joissa data jalostuu vaiheittain raakadatasta käyttökelpoiseen muotoon.


Modernin data-alustan perusta

Lakehouse-arkkitehtuurissa dataputket rakentuvat siten, että data kulkee vaiheittain Bronze-, Silver- ja Gold-kerrosten läpi.

Bronze-kerros sisältää raakadataa, joka on tallennettu suoraan S3-bucketteihin. Tässä vaiheessa dataa ei käytännössä käsitellä, vaan tavoitteena on säilyttää lähdedata mahdollisimman muuttumattomana myöhempää käyttöä varten.

Seuraavassa vaiheessa data siirretään Silver-kerrokseen, jossa raakadataa aletaan jäsentää ja formatoida. Tässä vaiheessa esimerkiksi eri lähteistä tulevaa dataa voidaan yhdistää ja muuttaa yhtenäiseen muotoon. Silver-tason data on jo analytiikan kannalta käyttökelpoista, mutta sen hyödyntäminen voi edelleen vaatia monimutkaisempaa käsittelyä.

Gold-kerroksessa data jalostetaan edelleen liiketoiminnan käyttöön. Tässä vaiheessa tehdään esimerkiksi valmiita join-operaatioita, datan puhdistusta ja analytiikkaa varten optimoituja rakenteita. Tavoitteena on, että Gold-tason dataa voidaan käyttää suoraan raportoinnissa, analytiikassa tai dashboardeissa.

Esimerkiksi Silver-tasolla datasetissä voi olla useita aikaleimoja, kuten milloin data luotiin, milloin sitä muokattiin viimeksi ja milloin tapahtuma kirjattiin. Gold-tasolla datasta voidaan säilyttää vain analytiikan kannalta olennaisimmat aikaleimat, jolloin datasetistä tulee selkeämpi ja helpommin käytettävä.


Datan mallinnus Silver- ja Gold-tasoilla

Kun dataa jalostetaan analytiikkaa varten, voi käyttää esimerkiksi star schema -mallia, joka koostuu kahdesta keskeisestä taulutyypistä:

Dimensiotaulut sisältävät suhteellisen staattista dataa, kuten esimerkiksi:

  • osoitteet

  • projektit

  • käyttäjät

  • tuotteet

Faktataulut puolestaan sisältävät tapahtumapohjaista dataa, joka muuttuu jatkuvasti. Tällaisia voivat olla esimerkiksi:

  • ostotapahtumat

  • IoT-laitteiden tapahtumat

  • sovellusten tapahtumalokit

Faktatauluissa jokainen tapahtuma tallennetaan omaksi rivikseen. Dimensiotaulut puolestaan tarjoavat kontekstin näille tapahtumille.

Gold-tasolla data on usein jo mallinnettu valmiiksi tähän rakenteeseen, jolloin analytiikkatyökalujen on helppo tehdä kyselyitä ilman monimutkaisia join-operaatioita.


Miltä Medallion Lakehouse-arkkitehtuuri näyttää AWS-ympäristössä?

Kun Medallion Lakehouse-arkkitehtuuri toteutetaan AWS:ssä, se rakentuu tyypillisesti useiden AWS-palveluiden ympärille. Tärkeässä roolissa ovat erityisesti Amazon S3, AWS Glue sekä AWS Lake Formation, jotka yhdessä muodostavat modernin datalake-ympäristön perustan.

Tässä arkkitehtuurissa Lake Formation toimii datan hallinnan keskeisenä palveluna. Sen avulla voidaan hallita datan käyttöoikeuksia, metatietoja ja datan käyttöä eri järjestelmissä. Samalla se mahdollistaa datan hallitun käytön analytiikkatyökaluissa ja dataputkissa.

Varsinainen data tallennetaan datalakeen Amazon S3:een, joka toimii kustannustehokkaana ja skaalautuvana tallennusratkaisuna suurille datamäärille. Medallion Lakehouse-mallissa eri kerrokset voidaan erottaa toisistaan esimerkiksi S3-buckettien tai hakemistorakenteen avulla.

Pronssikerroksessa data tallennetaan suoraan S3-bucketteihin lähes alkuperäisessä muodossaan. Silver- ja Gold-kerroksissa dataa käsitellään ja ja tallennetaan uuteen S3 Tables:iin, joka tarjoaa kustannustehokkaan version relaatiotietokannasta, ja jossa data on jo jäsennelty analytiikkaa varten.

Datan muokkaus ja siirtäminen kerrosten välillä tapahtuu tyypillisesti AWS Glue -skriptien avulla, jotka käsittelevät dataa ja muodostavat uusia datatauluja seuraaviin kerroksiin.


Suorituskyky ja kustannusten optimointi AWS:ssä

Medallion Lakehouse-arkkitehtuuri skaalautuu erityisen hyvin AWS:ssä. Yksi keskeinen syy tähän on se, että datalake hyödyntää kustannustehokasta objektitallennusta.

Amazon S3 mahdollistaa suurten datamäärien tallentamisen huomattavasti edullisemmin kuin perinteiset tietokantaratkaisut. Kun raakadata säilytetään Bronze-kerroksessa S3:ssa, sitä voidaan säilyttää pitkään ilman merkittäviä kustannuksia.

Dataputkien käsittely voidaan puolestaan toteuttaa serverless-pohjaisesti, esimerkiksi AWS Glue -palvelun avulla. Tämä tarkoittaa, että laskentakapasiteettia käytetään vain silloin kun dataputket ajetaan, mikä auttaa optimoimaan kustannuksia.

Kustannustehokkuutta parantaa myös se, että samaa dataa ei käsitellä tarpeettomasti useaan kertaan. Bronze-kerroksessa data voidaan tallentaa partitionoituna, jolloin dataputket voivat käsitellä vain uusia tai muuttuneita datapartitioita.

Silver- ja Gold-tasoilla voidaan puolestaan hyödyntää Lake Formationin snapshot-ominaisuutta, joka vertaa viimeisintä snapshot-versiota nykyiseen dataan. Näin dataputki pystyy tunnistamaan muutokset ja käsittelemään vain uutta tai päivittynyttä dataa, mikä vähentää sekä laskentaa että kustannuksia.


Suunnitteluperiaatteita Medallion Lakehouse-arkkitehtuurin toteuttamiseen

Vaikka Medallion Lakehouse-arkkitehtuuri on konseptiltaan yksinkertainen, sen onnistunut toteutus vaatii selkeitä suunnitteluperiaatteita. Kerroksellisen mallin tavoitteena on säilyttää datan käsittely loogisena ja hallittavana samalla, kun data jalostuu vaiheittain analytiikkaa varten.

Yksi keskeinen periaate on, että Bronze-kerroksen data säilytetään mahdollisimman muuttumattomana. Tällöin alkuperäinen lähdedata on aina saatavilla myöhempää käsittelyä tai virhetilanteiden selvittämistä varten.

Toinen tärkeä periaate on kerrosten selkeä vastuunjako. Silver-kerroksessa dataa jäsennellään ja standardoidaan, kun taas Gold-kerroksessa data muokataan analytiikkaa varten optimoituun muotoon. Kun jokaisella kerroksella on selkeä rooli, dataputket pysyvät hallittavina ja arkkitehtuuri säilyy selkeänä myös datamäärien kasvaessa.

Lisäksi dataputkien suunnittelussa kannattaa huomioida inkrementaalinen datankäsittely. Kun käsitellään vain uutta tai muuttunutta dataa esimerkiksi partitionoinnin tai snapshot-vertailujen avulla, voidaan parantaa sekä suorituskykyä että kustannustehokkuutta.


Lakehouse-arkkitehtuuri analytiikan ja tekoälyn tukena

Kun data on jalostettu Gold-kerroksessa analytiikkaa varten optimoituun muotoon, sitä voidaan hyödyntää monipuolisesti erilaisissa data- ja AI-ratkaisuissa. Rakenteinen ja laadukas dataset toimii esimerkiksi tietopohjana generatiivisille AI-ratkaisuille, jotka voivat hakea ja hyödyntää dataa kyselyiden, analyysin tai päätöksenteon tukena.

Tällaisissa ratkaisuissa AI-mallit eivät välttämättä tarvitse suoraa koulutusta organisaation omalla datalla. Sen sijaan ne voivat hakea ajantasaista tietoa lakehouse-arkkitehtuurissa hallitusta datasta. Kun data on Silver- ja Gold-tasoilla puhdistettu, yhdistetty ja mallinnettu selkeään rakenteeseen, AI-järjestelmien on helpompi hakea siitä relevanttia tietoa esimerkiksi raportointia, analytiikkaa tai asiakaspalvelua varten.

Näin lakehouse-arkkitehtuuri toimii paitsi analytiikan ja raportoinnin perustana myös luotettavana tietolähteenä moderneille AI-ratkaisuille.


Yhteenvetona

Medallion Lakehouse -arkkitehtuuri tarjoaa selkeän mallin datan hallintaan ja jalostamiseen moderneissa data-alustoissa. Jakamalla data Bronze-, Silver- ja Gold-kerroksiin voidaan varmistaa, että raakadata säilyy muuttumattomana, samalla kun analytiikkaa varten rakennetaan yhä jalostetumpia dataset-rakenteita.

AWS-ympäristössä tämä arkkitehtuuri voidaan toteuttaa tehokkaasti hyödyntämällä palveluita kuten Amazon S3, S3 Tables, AWS Glue ja AWS Lake Formation. Yhdessä nämä mahdollistavat skaalautuvan, kustannustehokkaan ja hallittavan datalake-ratkaisun.

Kun dataputket on suunniteltu oikein ja kerrosten roolit on määritelty selkeästi, Medallion Lakehouse-arkkitehtuuri tarjoaa vahvan perustan analytiikalle, raportoinnille sekä data- ja AI-ratkaisuille.

Tiiviimmän katsauksen liiketoiminnallisiin hyötyihin voit lukea seuraavasta osasta: Datasta arvokkaisiin päätöksiin – Medallion lakehouse liiketoiminnan tukena


Haluatko tietää lisää AWS tekoälypalveluista? Ota yhteyttä!

Harri Ilvonen

harri.ilvonen@skillwell.fi

+358 400 830 660

Jari Ikävalko

jari.ikavalko@skillwell.fi

+358 50 386 5590

Skillwell on 2018 perustettu timanttinen tiimi Jyväskylästä. Asiantuntijoillamme on vahvaa osaamista digitaalisista palveluista, AWS-pilvipalveluista ja integraatioratkaisuista. Yritykset tuntevat meidät luotettavana ja ajassa mukana olevana IT-kumppanina.

skillwell suomen vahvimmat platina

Kauppakatu 39

40100 Jyväskylä

© Skillwell Oy 2025

Keskustele asiantuntijan kanssa.

chat icon