[AI 서비스 개발] Wav2Vec, SpeechBrain

AI/AI 서비스 개발

brave_sol 2025. 4. 22. 11:46

1. Wav2Vec

- Facebook에서 개발한 self-Supervised 음성 표현 학습 모델

- 음성 신호 → 의미 있는 벡터 임베딩으로 변환해주는 모델

1) 핵심 구조

- 음성 신호에서 프레임 단위 특징 추출

- transformer 구조 + self supervised 방식으로 개선해 라벨 없이 음성 표현을 미리 학습하고, 소량의 라벨 데이터로 fine-tuning이 가능

- 활용 분야: 음성인식(ARS)- 목소리를 텍스트로 변환, 스피커 검증: 누가 말했는지 식별, 음성 임베딩- 음성 특성 추출하여 분류, 클러스터링 등 활용

- 라벨이 없는 음성 데이터로 미리 학습 가능,작은 학습 데이터로도 높은 성능

- Hugging Face의 facebook/wav2vec2-base로 바로 사용 가능

2. SpeechBrain

- 음성 AI 연구와 응용을 위한 pytorch 기반의 오픈 소스 프레임워크

- 음성 AI를 위한 Hugging Face 같은 플랫폼