Principles of Data layers in Data Platform
๋ฐ์ดํฐ ํ๋ซํผ์ ์ฃผ์ ๊ณ์ธต ๊ตฌ์กฐ:
1.
Staging ๊ณ์ธต (์์ฌ๋ฃ ์
๊ณ )
โข
Raw Layer
โฆ
์์ค ์์คํ
์ ๋ฐ์ดํฐ๋ฅผ ์๋ ๊ทธ๋๋ก ์ ์ฅ
โฆ
Snowflake, BigQuery, RedShift ๋ฑ์ ๋ฐ์ดํฐ ์จ์ดํ์ฐ์ค์ ์ ์ฌ
โฆ
ELT ๋๊ตฌ(Fivetran, Stitchdata ๋ฑ)๋ก ๋ฐ์ดํฐ ๋ก๋
โฆ
๋ฐ์ดํฐ ์์ง๋์ด๋ง ํ์ด ๊ด๋ฆฌํ๋ฉฐ ์คํค๋ง ์์ ๋ถ๊ฐ
โฆ
๋ช
๋ช
๊ท์น: <SOURCE_SYSTEM_NAME>_<BRAND_NAME>
โข
Standardised Layer
โฆ
์ฌ๋ฐ๋ฅธ ๋ฐ์ดํฐ ํ์
์ผ๋ก ๋ณํ
โฆ
๋ฉํ๋ฐ์ดํฐ ๊ด๋ฆฌ (์ค๋ช
, PII ๋ถ๋ฅ ๋ฑ)
โฆ
๋ฐ์ดํฐ ๋ณ๊ฒฝ ์ด๋ ฅ ๊ด๋ฆฌ
โฆ
ํ์ํ ๋ฐ์ดํฐ ์๋ธ์
๋ง ํฌํจ
2.
Core ๊ณ์ธต (์๋ฆฌ ์ค๋น)
โข
Prep Layer
โฆ
์ฌ๋ฌ ์์ค์ ๋ฐ์ดํฐ๋ฅผ ์ผ๊ด๋ ๊ตฌ์กฐ๋ก ํตํฉ
โฆ
์์ฑ ๋งคํ ๋ฐ ๋น์ฆ๋์ค ํค ์๋ณ
โฆ
๋ฒ์ฉ ๋ฐ์ดํฐ ์ ์ ๊ท์น ์ ์ฉ
โข
Conformed Layer
โฆ
๋น์ฆ๋์ค ๊ท์น๊ณผ ๋ณต์กํ ๋ณํ ์ ์ฉ
โฆ
์ ์ฌ์ ๋ฐ์ดํฐ ๋๋ฉ์ธ ๊ตฌ์ถ
โฆ
๋จ์ผ ์ง์ค ๊ณต๊ธ์(Single Source of Truth) ์ญํ
โฆ
Reference Data๋ฅผ ํ์ฉํ ๋ฐ์ดํฐ ๋ณด๊ฐ
3.
Presentation ๊ณ์ธต (๊ณ ๊ฐ ์๋น)
โข
Data Mart
โฆ
Star Schema ๋ชจ๋ธ ์ฌ์ฉ (Kimball ๋ฐฉ๋ฒ๋ก )
โฆ
๋ถ์ ๋ชฉ์ ์ ์ต์ ํ๋ ๊ตฌ์กฐ
โฆ
Fact ํ
์ด๋ธ๊ณผ Dimension ํ
์ด๋ธ๋ก ๊ตฌ์ฑ
โข
Report
โฆ
์์ ํ ๋น์ ๊ทํ๋ ๋ฐ์ดํฐ์
์ ๊ณต
โฆ
๋ฏธ๋ฆฌ ์กฐ์ธ๋๊ณ ์ง๊ณ๋ ๋ฐ์ดํฐ
โฆ
๊ฒฝ์์ง์ด ์ง์ ์ ๊ทผ ๊ฐ๋ฅ
์ฑ๊ณต์ ์ธ ๋ฐ์ดํฐ ํ๋ซํผ ์ด์์ ์ํ ํต์ฌ ์์:
1.
๋ถ์๊ฐ/๋น์ฆ๋์ค ํ๊ณผ์ ์ง์์ ์ธ ์ํต
2.
๋ฐ์ดํฐ ์ฌ์ฉ ํํฉ ๋ชจ๋ํฐ๋ง
3.
๋ฏผ์ฒฉ์ฑ ํ๋ณด
4.
์ง์์ ์ธ ํผ๋๋ฐฑ๊ณผ ๊ฐ์
์ฃผ๋ชฉํ ๋งํ ์ :
โข
Medallion ์ํคํ
์ฒ(Bronze, Silver, Gold)๋ Databricks๊ฐ ๋์
ํ ๋ช
๋ช
๊ท์น์ผ ๋ฟ, ๊ธฐ์ ์ ํน์ง์ ์์
โข
์๊ท๋ชจ/์ ์ฑ์๋ ์กฐ์ง์ ๊ฒฝ์ฐ Data Vault ํจํด ๋์
์ ๋ถํ์
โข
๋ฐ์ดํฐ ๊ณ์ฝ(Data Contract)์ด ์ค์: ๋ฐ์ดํฐ ๊ฐ์ฉ์ฑ, SLA ํฉ์, ๊ตฌ์กฐ ๋ณ๊ฒฝ ๊ด๋ฆฌ ๋ฑ
์ด๋ฌํ ๊ณ์ธต ๊ตฌ์กฐ๋ฅผ ํตํด ์ผ๊ด์ฑ, ์ ๋ขฐ์ฑ, ์ค๋ณต ์ ๊ฑฐ, ๋ฏผ์ฒฉ์ฑ, ์ ๊ทผ์ฑ์ ํ๋ณดํ์ฌ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ ์ ์ง์ํฉ๋๋ค.