Search

비즈니스에 맞는 데이터 파이프 라인 쉽고 빠르게 구축하기

비즈니스에 맞는 데이터 파이프 라인 쉽고 빠르게 구축하기

1. 데이터 분석을 위한 효율적인 데이터 레이크 구축
데이터 분석 수요가 증가하면서 다양한 부서에서 개인화 추천재고 예측 등 다양한 분석 니즈를 보인다.
데이터 엔지니어링 경험이 부족하면 IT 담당자는 분석 결과 도출이 어렵다.
데이터를 수집하고 저장 위치를 파악하는 것이 쉽지 않으며, 효율적인 데이터 파이프라인 아키텍처를 구성하는 데 어려움이 있다.
이번 세션에서는 AWS 환경에서 데이터를 빠르고 효율적으로 구성하는 방법을 공유한다.
참가자들은 세션을 통해 분석에 필요한 데이터를 식별하고 데이터 레이크를 구축할 수 있는 방법을 배우게 된다.
2. 세션 요약 및 기대 효과
이번 세션을 통해 적어도 세 가지 고민이 해결되기를 바랍니다.
첫째, 우리 시스템의 분석 재료가 무엇인지 파악할 수 있는 시간이 되길 바랍니다.
둘째, 데이터 레이크의 개념과 활용 필요성을 쉽고 직관적으로 이해할 수 있습니다.
셋째, 여러분도 자사 시스템에서 작은 규모의 데이터 파이프라인을 구축할 자신감을 가질 수 있을 것입니다.
데이터 분석을 통해 사용자 행동을 개선하고, 개인화된 추천 서비스를 제공하며, 재고 예측으로 비용 절감과 마케팅 전략을 강화할 수 있습니다.
3. 데이터 분석에 필요한 주요 데이터 종류
분석에 필요한 데이터로는 첫 번째로, 데이터베이스에 저장된 트랜잭션 데이터가 필요하다.
트랜잭션 데이터는 기업에서 발생하는 모든 거래, 고객, 상품 데이터 등을 포함하며, 고객과 상품 리스트의 지속적 업데이트를 통해 거래와 매출 현황을 파악하고 예측 분석에 활용된다.
두 번째로는 웹 서버나 모바일 앱에서의 모든 고객 행동 로그, 즉 엑세스 로그가 필요하다.
고객 행동 로그는 페이지 방문, 검색, 제품 선택, 장바구니 담기, 결제 등 고객의 모든 행동을 포함하고, 이를 통해 기업은 고객의 행동 패턴과 선호도를 분석하여 맞춤형 마케팅을 할 수 있도록 지원한다.
또한, '구글 어널리틱스' 같은 도구도 많이 활용되며, 트랜잭션 데이터와 함께 사용하면 웹사이트 방문자 행동과 구매 형태를 연결하여 더욱 정확하고 효과적인 분석이 가능하다.
4. 데이터 레이크 구축의 중요성과 AWS S3 활용
대부분의 담당자들은 분석에 필요한 데이터와 그 위치를 알고 있지만, 다양한 소스에서 발생하는 데이터를 연결하여 분석하는 것이 어렵다.
트랜잭션 데이터는 관계형 데이터베이스에, 고객 행동 로그는 웹 서버에서 발생되며, 구글 애널리틱스 데이터는 GCP에 저장된다.
따라서 즉각적인 분석을 위해 사전에 수립된 데이터를 빠르게 연결할 수 있는 데이터 레이크의 구축이 중요하다.
AWS S3는 대규모 데이터를 저장할 수 있으며, 다양한 포맷을 지원하고 비용이 저렴하여 데이터 통합 및 분석에 많은 장점을 제공한다.
이러한 특징으로 인해 손쉽게 데이터 레이크를 구축할 수 있는 아키텍처를 설명할 것이다.
5. 데이터 레이크 아키텍처의 구성과 장점
데이터 레이크 아키텍처는 데이터 사이즈와 실시간 수요에 따라 다양하게 구성될 수 있다.
이번 세션에서는 자사 시스템 사이즈가 작거나 빠르게 분석하고 인사이트를 얻고자 할 때 적합한 방법으로 아키텍처를 안내한다.
엑세스 로그, 고객 행동 로그가 담긴 웹서버 트랜잭션 데이터베이스와 구글 애널리틱스를 활용하여 데이터를 수집하고 S3 데이터 파이프라인을 통해 아테나 서비스를 이용한 분석이 가능하다.
AWS S3와 글루, 아테나 서비스를 사용하여 데이터 레이크를 구현하면 다양한 포맷의 데이터를 저렴하게 저장하고 자동으로 테이블화하여 쉽게 조회할 수 있다.
S3와 아테나의 통합을 통해 무제한으로 데이터를 수집하고 연결하여 빠르게 조회할 수 있는 장점이 있다.
6. 고객 행동 로그 수집 방법 및 데이터 처리
데이터 레이크 저장소를 만든 후, 고객 행동 로그를 쉽게 수집하는 방법을 알아보겠습니다.
고객 행동 로그는 고객의 행동 패턴을 분석하기 위해 필요한 필수 데이터이며, 웹사이트 방문, 클릭 로그, 페이지 이동, 이탈 등 다양한 패턴을 포함합니다.
이러한 데이터는 웹서버에서 로그 형태로 쌓이며, 아마존 키네시스 파이어호스 서비스를 이용하면 이를 효율적으로 수집할 수 있습니다.
키네시스 파이어호스는 데이터를 S3, 레드시프트 등의 스토리지로 실시간으로 전달하고 데이터 포맷 변경이나 필터링 같은 스트리밍 과정에서 데이터 처리도 가능합니다.
또한, 키네시스 파이어호스를 몇 번의 클릭으로 생성하고 웹 서버에 에이전트를 설치하여 실시간 고객 행동 로그를 S3에 수집할 수 있고, 수집된 데이터는 글루 크롤러를 통해 SQL로 분석할 수 있습니다.
7. 고객 데이터 수집 및 분석 방법
고객의 주문, 결제 등의 거래 데이터와 상품, 고객 마스터 데이터를 수집하는 방법은 다양하다.
데이터베이스에 저장된 트랜잭션 데이터를 수집하는 방법은 데이터 사이즈와 실시간 니즈에 따라 파이프라인 아키텍처가 달라진다.
실시간 데이터 업데이트, 삭제 등을 수집하기 위해서는 AWS DMS 서비스와 후디 아이스버그를 활용한 파이프라인 구축이 필요하다.
실시간 needs가 없는 경우, 매일 1회 배치 수집을 위해서는 AWS Glue 잡을 사용할 수 있으나, 실시간에 가까울수록 아키텍처의 복잡성과 운영 에포트가 증가한다.
자사 데이터 볼륨이 적을 경우 람다 커넥터를 사용해 S3 복제 없이 데이터베이스의 데이터를 직접 조회하는 방법을 추천한다.
8. 데이터 분석을 위한 AWS 아키텍처 소개
대용량 데이터베이스 접근 시 고객 서비스에 영향을 미칠 수 있어, 새로운 아키텍처가 필요할 수 있다.
그러나 데이터 볼륨이 작을 경우, 비용과 운영 효율성, 실시간 처리, 구축 속도 등의 이점이 있어 람다 커넥터 아키텍처를 시도할 만하다.
구글 애널리틱스를 활용하여 웹사이트 방문자 행동과 특성을 분석하기 위해, 실제 구매 형태의 트랜잭션 데이터와 연결하면 더 정확하고 효과적인 분석이 가능하다.
AWS 글루 커넥터를 사용하면 GCP 인증 정보와 구글 애널리틱스 테이블 정보를 입력하여 S3 데이터 파이프라인을 쉽게 구성하고 스케줄링할 수 있다.
S3에 저장된 데이터는 글루 크롤러로 메타 정보를 식별한 후 아테나 서비스에서 다른 데이터와 함께 분석할 수 있다.[7]
9. 데이터 관리의 시스템화와 자동화 방안
고객 미팅 중, 마케팅, 재고, 발주와 같은 중요한 데이터를 담당자 PC의 엑셀 파일로 관리하는 경우가 많다.
이러한 데이터 파편화는 통합 분석에 어려움을 초래하며, 현재 시스템화가 미비한 상태이다.
개인 PC 대신 회사 내 공유 사이트에 데이터를 관리하고, AWS Lambda를 활용하여 매일 S3로 데이터를 복제하는 ETL 코드를 작성함으로써 자동화를 꾀할 수 있다.
웹 서버의 고객 행동 로그, 데이터베이스의 트랜잭션 데이터, 구글 애널리틱스 등 다양한 데이터 소스에서 S3로 수집하는 데이터 레이크 아키텍처를 살펴보았다.
이 아키텍처는 크지 않은 데이터 시스템에 적합하며, S3에 저장된 데이터는 AWS Athena, 퀵사이트, 머신러닝을 통해 고급 분석 활동에 활용될 수 있다.[8]
10. ️데이터 수집 및 파이프라인 구성 워크샵 안내
이번 세션의 마지막으로, 아키텍처 요약과 실습 가능한 워크샵을 안내드리겠다.
웹서버의 고객 행동 로그는 키네시스 에이전트를 설치하여 S3로 간편하게 수집할 수 있으며, 멀티 타겟이 필요 시 키네시스 파이어호스를 다수 설치해야 한다.
트랜잭션 데이터의 경우, 데이터 크기와 실시간 필요성이 아키텍처 선택의 핵심인데, 필요에 따라 람다 커넥터를 활용할 수 있다.
구글 애널리틱스 및 수작업 엑셀 데이터와 같은 다양한 데이터 소스에서 데이터 파이프라인을 구축할 수 있는 커넥터도 제공되며, 이에 따라 손쉽게 데이터를 수집할 수 있다.
워크샵은 데이터 발생부터 분석 환경에서의 활용 과정까지 A부터 Z까지 직접 실습할 수 있도록 구성되어 있다.[9]
11. AWS 워크샵 데이터 레이크 실습 안내
아래 링크를 통해 데이터 레이크의 AWS 워크샵 페이지에 접속할 수 있으며, 첫 화면에서 전체 아키텍처 설명 페이지를 확인할 수 있다.
분석에 필요한 데이터 확인 페이지에서는 주문 웹서비스를 통해 트랜잭션 데이터와 액세스 데이터가 생성 및 저장되는 과정을 실습할 수 있으며, 웹서비스에서 음식을 주문하여 주문 데이터가 데이터베이스에 저장되는 것을 확인할 수 있다.
고객 행동 로그 수집 페이지에서는 키네시스 파스를 생성하고 에이전트를 설치하여 생성한 데이터 레이크로 고객 행동 로그를 수집하고, AWS 아테나 서비스에서 로그 데이터를 조회하는 실습을 진행한다.
트랜잭션 데이터 수집 페이지에서는 람다 커넥터를 활용한 데이터베이스 데이터 수집 방법을 익히고, 구글 애널리틱스와 같은 외부 클라우드 데이터 수집 방법도 확인할 수 있다.
마지막으로 실습 후에는 비용 절감을 위해 워크샵에서 사용한 리소스를 삭제해야 한다.[10]