아이디어 1
•
데이터 파이프라인을 생각해보았습니다
•
ETL 파이프라인
◦
Extract
▪
원본 wav 파일 데이터
◦
Transform
▪
mfcc와 같은 이미지로 변환
◦
Load
▪
S3와 같은 datalake에 적재
•
오디오 원본을 클라우드 S3 스토리지(데이터 레이크)에 적재하게 되면 용량을 너무 많이 잡아먹게 된다
◦
대안을 생각해보았다
▪
wav 파일을 그대로 업로드하는것이 아니라 이미지로 변환 후 스토리지에 적재하자 → 포인터로써 활용하자
▪
그 후 태그를 단다
•
원본 wav 파일 이름
•
이미지 종류 (spectrogram, melspectrogram, mfcc 등)
•
train, test 셋 여부