본문 바로가기
AI, 머신러닝, 딥러닝, 데이터 분석

화자 분할 논문 리뷰

by 포로리다 2023. 11. 16.
728x90
반응형
SMALL

- 출처: 잡음 환경에서의 심층신경망 기반 음성 향상 및 종단 간 화자 분할 시스템, 정재희(2023)

- 한계: 많은 화자가 포함되는 데이터의 경우 분류해야 할 클래스 수가 기하급수적으로 많아져 성능이 오히려 떨어질 가능성이 있다는 단점을 지님 

 

(과거)클러스터링 기반 방법 -> (현재)심층 신경망 기반의 종단 간 화자 분할 시스템

 

클러스터링 기반 방법

- 여러 모듈 거쳐 수행됨

  • 잡음 잔향 제거 위해 음성 향상 or 잔향 제거(dereverberation) 등의 전처리
  • 묵음 구간 최대한 제거 -> 발화구간에 대해서만 레이블링하도록 음성 검출기 적용(짧은 길이의 세그먼트로 분할, 각 세그먼트마다 x-vector, d-vector 처럼 화자 특징 추출)
  • 추출한 화자 특징은 클러스터링 기법(AHC, 스펙트럼 클러스터링 등)으로 각 세그먼트가 어떤 화자의 발화인지 분류

- 단점: 모듈들을 한번에 최적화 어려움, 겹쳐 발화된 구간에 대한 레이블링 어려운 문제 해결을 위해 심층 신경망 기반 종단 간 화자 분할 시스템이 연구됨

 

심층 신경망 기반 종단 간 화자 분할 시스템 

- 각 화자를 하나의 레이블Label 로 간주, 다중 레이블 분류(multi label classification) 문제로 훈련 수행함 -> 다수 화자가 겹쳐 발화된 구간 예측 가능

- 음성으로부터 특징 추출 - 각 프레임에서 화자들의 존재 확률 예측 -> 예측한 화자에 대한 사후확률은 임계값(threshold)을 이용해 화자 존재 여부를 얻음

- 성능 향상 : 추가적으로 화자 역할에 대한 정보나 특징을 이용하거나 음성 스크립트 정보를 이용하기 위해서 화자 분할 모델을 화자 특징 추출(speaker embedding extractor) 네트워크나 ARS네트워크와 다중작업학습을 수행하는 방법에 대해 많이 연구되고 있다. 다중 레이블 분류 기반 화자 분할은 임계값에 따라 성능이 달라져 임계값 의존 문제 해결을 위해 예측된 다중 레이블을 Power set을 이용해 단일 레이블로 변환하여 화자 분할을 수행하는 논문이 제안되기도 했다.

 

음성 특징 추출

- 프리 엠퍼시스 pre-emphasis

 음성의 고주파 성분 증폭 위한 전처리

사람의 말소리에는 고주파보다 저주파 에너지가 더 많이 포함돼 상대적으로 고주파 성분이 적음. 고주파 에너지를 강화해 음성 신호의 에너지가 전체 주파수 영역에 고르게 분포하도록 전처리 수행함.

샘플 음성에 프리-엠퍼시스를 적용

- 프레임화(framing)

음성 신호를 특정 윈도우 크기의 짧은 길이로 자르는 과정

음성 신호는 시간에 따라 통계적 특성이 매우 빠르게 변화하는 특징, 이를 분석하기 위해서는 아주 짧은 시간 단위로 신호를 쪼개어 각각 푸리에 변환을 수행해야 함.

프레임화 과정은 윈도우를 겹쳐서 이동하며 수행되고 얻은 짧은 음성 신호를 하나의 프레임으로 간주,

 

 

- 고속 푸리에 변환(fast fourier transform, FFT)

시간 영역의 음성 신호를 주파수 영역으로 변환하기 위한 과정

빨간색이 원 신호, 파란색의 여러 주기 함수를 이용해 각 영역을 분해

- 스펙트럼

푸리에 변환을 통해 복소값 스펙트럼 추출, 크기 스펙트럼과 위상 계산

 

 

728x90
반응형
LIST

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

AI-900 인공지능 자격 시험  (0) 2023.12.03
AI 오디오처리  (0) 2023.11.28
Salmonn(2023. 10. 26.)  (1) 2023.11.03
AI 화자 인식_DenseNet, ResNet, Ensemble  (0) 2023.10.30
AI 강연 리뷰  (2) 2023.10.30