티스토리 뷰

1. Wav2Vec

- Facebook에서 개발한 self-Supervised 음성 표현 학습 모델

- 음성 신호 → 의미 있는 벡터 임베딩으로 변환해주는 모델

 

1) 핵심 구조

- 음성 신호에서 프레임 단위 특징 추출

- transformer 구조 + self supervised 방식으로 개선해 라벨 없이 음성 표현을 미리 학습하고, 소량의 라벨 데이터로 fine-tuning이 가능

- 활용 분야: 음성인식(ARS)- 목소리를 텍스트로 변환, 스피커 검증: 누가 말했는지 식별, 음성 임베딩- 음성 특성 추출하여 분류, 클러스터링 등 활용

- 라벨이 없는 음성 데이터로 미리 학습 가능,작은 학습 데이터로도 높은 성능

- Hugging Face의 facebook/wav2vec2-base로 바로 사용 가능

 

2. SpeechBrain

- 음성 AI 연구와 응용을 위한 pytorch 기반의 오픈 소스 프레임워크

- 음성 AI를 위한 Hugging Face 같은 플랫폼

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함