[AI 서비스 개발] Wav2Vec, SpeechBrain

티스토리 뷰

AI/AI 서비스 개발

brave_sol 2025. 4. 22. 11:46

1. Wav2Vec

- Facebook에서 개발한 self-Supervised 음성 표현 학습 모델

- 음성 신호 → 의미 있는 벡터 임베딩으로 변환해주는 모델

1) 핵심 구조

- 음성 신호에서 프레임 단위 특징 추출

- transformer 구조 + self supervised 방식으로 개선해 라벨 없이 음성 표현을 미리 학습하고, 소량의 라벨 데이터로 fine-tuning이 가능

- 활용 분야: 음성인식(ARS)- 목소리를 텍스트로 변환, 스피커 검증: 누가 말했는지 식별, 음성 임베딩- 음성 특성 추출하여 분류, 클러스터링 등 활용

- 라벨이 없는 음성 데이터로 미리 학습 가능,작은 학습 데이터로도 높은 성능

- Hugging Face의 facebook/wav2vec2-base로 바로 사용 가능

2. SpeechBrain

- 음성 AI 연구와 응용을 위한 pytorch 기반의 오픈 소스 프레임워크

- 음성 AI를 위한 Hugging Face 같은 플랫폼

[AI 서비스 개발] 생성형 AI와 보안 (0)	2025.04.24
[AI 서비스 개발] 프로프트 엔지니어링, RAG (0)	2025.04.22
[AI 서비스 개발] Docker를 사용하는 이유, CI/CD (0)	2025.04.18
[AI 서비스 개발] 리눅스에 미니포지 설치하기 (0)	2025.03.28
[AI 서비스 개발] AI 여행플래너 서비스 프로젝트 관련 용어 복기 (0)	2025.03.18

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함