AI/AI 서비스 개발
[AI 서비스 개발] Wav2Vec, SpeechBrain
brave_sol
2025. 4. 22. 11:46
1. Wav2Vec
- Facebook에서 개발한 self-Supervised 음성 표현 학습 모델
- 음성 신호 → 의미 있는 벡터 임베딩으로 변환해주는 모델
1) 핵심 구조
- 음성 신호에서 프레임 단위 특징 추출
- transformer 구조 + self supervised 방식으로 개선해 라벨 없이 음성 표현을 미리 학습하고, 소량의 라벨 데이터로 fine-tuning이 가능
- 활용 분야: 음성인식(ARS)- 목소리를 텍스트로 변환, 스피커 검증: 누가 말했는지 식별, 음성 임베딩- 음성 특성 추출하여 분류, 클러스터링 등 활용
- 라벨이 없는 음성 데이터로 미리 학습 가능,작은 학습 데이터로도 높은 성능
- Hugging Face의 facebook/wav2vec2-base로 바로 사용 가능
2. SpeechBrain
- 음성 AI 연구와 응용을 위한 pytorch 기반의 오픈 소스 프레임워크
- 음성 AI를 위한 Hugging Face 같은 플랫폼
반응형