///
Search

2023.2.4

아이디어 1
데이터 파이프라인을 생각해보았습니다
ETL 파이프라인
Extract
원본 wav 파일 데이터
Transform
mfcc와 같은 이미지로 변환
Load
S3와 같은 datalake에 적재
오디오 원본을 클라우드 S3 스토리지(데이터 레이크)에 적재하게 되면 용량을 너무 많이 잡아먹게 된다
대안을 생각해보았다
wav 파일을 그대로 업로드하는것이 아니라 이미지로 변환 후 스토리지에 적재하자 → 포인터로써 활용하자
그 후 태그를 단다
원본 wav 파일 이름
이미지 종류 (spectrogram, melspectrogram, mfcc 등)
train, test 셋 여부