비즈니스에 맞는 데이터 파이프 라인 쉽고 빠르게 구축하기
1. 데이터 분석을 위한 효율적인 데이터 레이크 구축
•
데이터 분석 수요가 증가하면서 다양한 부서에서 개인화 추천과 재고 예측 등 다양한 분석 니즈를 보인다.
•
데이터 엔지니어링 경험이 부족하면 IT 담당자는 분석 결과 도출이 어렵다.
•
데이터를 수집하고 저장 위치를 파악하는 것이 쉽지 않으며, 효율적인 데이터 파이프라인 아키텍처를 구성하는 데 어려움이 있다.
•
이번 세션에서는 AWS 환경에서 데이터를 빠르고 효율적으로 구성하는 방법을 공유한다.
•
참가자들은 세션을 통해 분석에 필요한 데이터를 식별하고 데이터 레이크를 구축할 수 있는 방법을 배우게 된다.
2. 세션 요약 및 기대 효과
•
이번 세션을 통해 적어도 세 가지 고민이 해결되기를 바랍니다.
•
첫째, 우리 시스템의 분석 재료가 무엇인지 파악할 수 있는 시간이 되길 바랍니다.
•
둘째, 데이터 레이크의 개념과 활용 필요성을 쉽고 직관적으로 이해할 수 있습니다.
•
셋째, 여러분도 자사 시스템에서 작은 규모의 데이터 파이프라인을 구축할 자신감을 가질 수 있을 것입니다.
•
데이터 분석을 통해 사용자 행동을 개선하고, 개인화된 추천 서비스를 제공하며, 재고 예측으로 비용 절감과 마케팅 전략을 강화할 수 있습니다.
3. 데이터 분석에 필요한 주요 데이터 종류
•
분석에 필요한 데이터로는 첫 번째로, 데이터베이스에 저장된 트랜잭션 데이터가 필요하다.
•
트랜잭션 데이터는 기업에서 발생하는 모든 거래, 고객, 상품 데이터 등을 포함하며, 고객과 상품 리스트의 지속적 업데이트를 통해 거래와 매출 현황을 파악하고 예측 분석에 활용된다.
•
두 번째로는 웹 서버나 모바일 앱에서의 모든 고객 행동 로그, 즉 엑세스 로그가 필요하다.
•
고객 행동 로그는 페이지 방문, 검색, 제품 선택, 장바구니 담기, 결제 등 고객의 모든 행동을 포함하고, 이를 통해 기업은 고객의 행동 패턴과 선호도를 분석하여 맞춤형 마케팅을 할 수 있도록 지원한다.
•
또한, '구글 어널리틱스' 같은 도구도 많이 활용되며, 트랜잭션 데이터와 함께 사용하면 웹사이트 방문자 행동과 구매 형태를 연결하여 더욱 정확하고 효과적인 분석이 가능하다.
4. 데이터 레이크 구축의 중요성과 AWS S3 활용
•
대부분의 담당자들은 분석에 필요한 데이터와 그 위치를 알고 있지만, 다양한 소스에서 발생하는 데이터를 연결하여 분석하는 것이 어렵다.
•
트랜잭션 데이터는 관계형 데이터베이스에, 고객 행동 로그는 웹 서버에서 발생되며, 구글 애널리틱스 데이터는 GCP에 저장된다.
•
따라서 즉각적인 분석을 위해 사전에 수립된 데이터를 빠르게 연결할 수 있는 데이터 레이크의 구축이 중요하다.
•
AWS S3는 대규모 데이터를 저장할 수 있으며, 다양한 포맷을 지원하고 비용이 저렴하여 데이터 통합 및 분석에 많은 장점을 제공한다.
•
이러한 특징으로 인해 손쉽게 데이터 레이크를 구축할 수 있는 아키텍처를 설명할 것이다.
5. 데이터 레이크 아키텍처의 구성과 장점
•
데이터 레이크 아키텍처는 데이터 사이즈와 실시간 수요에 따라 다양하게 구성될 수 있다.
•
이번 세션에서는 자사 시스템 사이즈가 작거나 빠르게 분석하고 인사이트를 얻고자 할 때 적합한 방법으로 아키텍처를 안내한다.
•
엑세스 로그, 고객 행동 로그가 담긴 웹서버 트랜잭션 데이터베이스와 구글 애널리틱스를 활용하여 데이터를 수집하고 S3 데이터 파이프라인을 통해 아테나 서비스를 이용한 분석이 가능하다.
•
AWS S3와 글루, 아테나 서비스를 사용하여 데이터 레이크를 구현하면 다양한 포맷의 데이터를 저렴하게 저장하고 자동으로 테이블화하여 쉽게 조회할 수 있다.
•
S3와 아테나의 통합을 통해 무제한으로 데이터를 수집하고 연결하여 빠르게 조회할 수 있는 장점이 있다.
6. 고객 행동 로그 수집 방법 및 데이터 처리
•
데이터 레이크 저장소를 만든 후, 고객 행동 로그를 쉽게 수집하는 방법을 알아보겠습니다.
•
고객 행동 로그는 고객의 행동 패턴을 분석하기 위해 필요한 필수 데이터이며, 웹사이트 방문, 클릭 로그, 페이지 이동, 이탈 등 다양한 패턴을 포함합니다.
•
이러한 데이터는 웹서버에서 로그 형태로 쌓이며, 아마존 키네시스 파이어호스 서비스를 이용하면 이를 효율적으로 수집할 수 있습니다.
•
키네시스 파이어호스는 데이터를 S3, 레드시프트 등의 스토리지로 실시간으로 전달하고 데이터 포맷 변경이나 필터링 같은 스트리밍 과정에서 데이터 처리도 가능합니다.
•
또한, 키네시스 파이어호스를 몇 번의 클릭으로 생성하고 웹 서버에 에이전트를 설치하여 실시간 고객 행동 로그를 S3에 수집할 수 있고, 수집된 데이터는 글루 크롤러를 통해 SQL로 분석할 수 있습니다.
7. 고객 데이터 수집 및 분석 방법
•
고객의 주문, 결제 등의 거래 데이터와 상품, 고객 마스터 데이터를 수집하는 방법은 다양하다.
•
데이터베이스에 저장된 트랜잭션 데이터를 수집하는 방법은 데이터 사이즈와 실시간 니즈에 따라 파이프라인 아키텍처가 달라진다.
•
실시간 데이터 업데이트, 삭제 등을 수집하기 위해서는 AWS DMS 서비스와 후디 아이스버그를 활용한 파이프라인 구축이 필요하다.
•
실시간 needs가 없는 경우, 매일 1회 배치 수집을 위해서는 AWS Glue 잡을 사용할 수 있으나, 실시간에 가까울수록 아키텍처의 복잡성과 운영 에포트가 증가한다.
•
자사 데이터 볼륨이 적을 경우 람다 커넥터를 사용해 S3 복제 없이 데이터베이스의 데이터를 직접 조회하는 방법을 추천한다.
8. 데이터 분석을 위한 AWS 아키텍처 소개
•
대용량 데이터베이스 접근 시 고객 서비스에 영향을 미칠 수 있어, 새로운 아키텍처가 필요할 수 있다.
•
그러나 데이터 볼륨이 작을 경우, 비용과 운영 효율성, 실시간 처리, 구축 속도 등의 이점이 있어 람다 커넥터 아키텍처를 시도할 만하다.
•
구글 애널리틱스를 활용하여 웹사이트 방문자 행동과 특성을 분석하기 위해, 실제 구매 형태의 트랜잭션 데이터와 연결하면 더 정확하고 효과적인 분석이 가능하다.
•
AWS 글루 커넥터를 사용하면 GCP 인증 정보와 구글 애널리틱스 테이블 정보를 입력하여 S3 데이터 파이프라인을 쉽게 구성하고 스케줄링할 수 있다.
•
S3에 저장된 데이터는 글루 크롤러로 메타 정보를 식별한 후 아테나 서비스에서 다른 데이터와 함께 분석할 수 있다.[7]
9. 데이터 관리의 시스템화와 자동화 방안
•
고객 미팅 중, 마케팅, 재고, 발주와 같은 중요한 데이터를 담당자 PC의 엑셀 파일로 관리하는 경우가 많다.
•
이러한 데이터 파편화는 통합 분석에 어려움을 초래하며, 현재 시스템화가 미비한 상태이다.
•
개인 PC 대신 회사 내 공유 사이트에 데이터를 관리하고, AWS Lambda를 활용하여 매일 S3로 데이터를 복제하는 ETL 코드를 작성함으로써 자동화를 꾀할 수 있다.
•
웹 서버의 고객 행동 로그, 데이터베이스의 트랜잭션 데이터, 구글 애널리틱스 등 다양한 데이터 소스에서 S3로 수집하는 데이터 레이크 아키텍처를 살펴보았다.
•
이 아키텍처는 크지 않은 데이터 시스템에 적합하며, S3에 저장된 데이터는 AWS Athena, 퀵사이트, 머신러닝을 통해 고급 분석 활동에 활용될 수 있다.[8]
10. ️데이터 수집 및 파이프라인 구성 워크샵 안내
•
이번 세션의 마지막으로, 아키텍처 요약과 실습 가능한 워크샵을 안내드리겠다.
•
웹서버의 고객 행동 로그는 키네시스 에이전트를 설치하여 S3로 간편하게 수집할 수 있으며, 멀티 타겟이 필요 시 키네시스 파이어호스를 다수 설치해야 한다.
•
트랜잭션 데이터의 경우, 데이터 크기와 실시간 필요성이 아키텍처 선택의 핵심인데, 필요에 따라 람다 커넥터를 활용할 수 있다.
•
구글 애널리틱스 및 수작업 엑셀 데이터와 같은 다양한 데이터 소스에서 데이터 파이프라인을 구축할 수 있는 커넥터도 제공되며, 이에 따라 손쉽게 데이터를 수집할 수 있다.
•
워크샵은 데이터 발생부터 분석 환경에서의 활용 과정까지 A부터 Z까지 직접 실습할 수 있도록 구성되어 있다.[9]
11. AWS 워크샵 데이터 레이크 실습 안내
•
아래 링크를 통해 데이터 레이크의 AWS 워크샵 페이지에 접속할 수 있으며, 첫 화면에서 전체 아키텍처 설명 페이지를 확인할 수 있다.
•
분석에 필요한 데이터 확인 페이지에서는 주문 웹서비스를 통해 트랜잭션 데이터와 액세스 데이터가 생성 및 저장되는 과정을 실습할 수 있으며, 웹서비스에서 음식을 주문하여 주문 데이터가 데이터베이스에 저장되는 것을 확인할 수 있다.
•
고객 행동 로그 수집 페이지에서는 키네시스 파스를 생성하고 에이전트를 설치하여 생성한 데이터 레이크로 고객 행동 로그를 수집하고, AWS 아테나 서비스에서 로그 데이터를 조회하는 실습을 진행한다.
•
트랜잭션 데이터 수집 페이지에서는 람다 커넥터를 활용한 데이터베이스 데이터 수집 방법을 익히고, 구글 애널리틱스와 같은 외부 클라우드 데이터 수집 방법도 확인할 수 있다.
•
마지막으로 실습 후에는 비용 절감을 위해 워크샵에서 사용한 리소스를 삭제해야 한다.[10]