본문 바로가기
AI, 머신러닝, 딥러닝, 데이터 분석

AI 오디오처리

by 포로리다 2023. 11. 28.
728x90
반응형
SMALL

Sampling

Sampling rate는 아날로그 정보를 얼마나 잘게 쪼갤지를 결정
잘게 쪼갤수록 정보 손실이 줄어들지만, 데이터의 크기가 늘어남

 

사람 목소리 구분할 수 있는 최소값 = 전화 품질 

Speech communication : 8 kHz(8000 sample/second)

 

#보간법 - 로우패스필터 사용해서(ex.높은 주파수대 영역들)보간을 시킨다.
#16000의 샘플링 레이트를 8천으로 줄임
#16000과 차이는 소리가 전화 통화에서 들리는 소리, 오리지널과 차이 존재 -> 어눌해짐
#즉, 적게 쪼갤수록 음질이 좋지 않아짐

 

음성의 duration은 데이터의 길이와 sampling rate를 나누어 확인 가능

 

- 가정. 남성 음성 구분 시 이 작업해주면 구분을 잘 할 수 있지 않을까?

Mu-Law Encoding

이러한 특성을 wave값을 표현하는데 반영해 작은 값에는 높은 분별력을, 큰 값끼리는 낮은 분별력을 갖도록 함

 

pitches 피치 값이 커질 수록 음이 높아짐

 

- 푸리에 변환

시계열 데이터의 일정한 시간 구간(윈도우 사이즈)

- Duration
샘플링 레이트를 window로 나눈 값
T=window/SR 
T(Window) = 5T(Signal), duration은 신호주기보다 5배 이상 길게 잡아야함
440Hz 신호의 window size는 5*(1/440)

 

 

스펙트럼 센트로이드(Spectral Centroid)
주파수의 스펙트럼의 가중 평균과 같음

 

Udemy speaker diarization 수강 노트

 

세그멘테이션

세그먼트가 너무 짧으면 각 음성 특징 정보가 충분하지 않음

서그먼트가 너무 길면 여러 스피커들이 포함되어 버림

스피커 변경 감지를 사용하면 개선 가능, 

 - 스피커 변경 감지 방법

1. 윈도우 비교

* 각각 스피커 임베딩 추출 후 임베딩 비교,

2. 윈도우 분류

* 이진 분류  

3. asr 인식

 

비지도 클러스터링

세그먼트에서 스피커 임베딩 추출 후 임베딩 값을 클러스터링 한다.

클러스터링 알고리즘이 존재함, 클러스터링은 분류와 달라서 비지도. 

대기시간에 따라서 아래와 같이 구분

- 온라인 클러스터링 : 새 임베딩값을 바로 분류

- 오프라인 클러스터링 :  모든 임베딩이 끝날 때까지 기다렸다가 분류

 

두 개의 임베딩값은 코사인 유사도 또는 유클리디안거리 사용

클러스터는 여러 입메딩의 집합이어서 코사인이나 유클리디안으로 직접 계산할 수 없음. 

Linkage 

* 평균 링크 - 모든 임베딩 쌍의 평균 거리

* 센트로이드 링트 - 두 연결 거리의 중심값

* 완성/컴플리트 링크 - 맥시멈 거리,  가장 먼 임베딩 값

* 싱글 링크 - 각 연결의 최소거리 구함.

 

 

 

 

 

 

728x90
반응형
LIST

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

AI-900 인공지능 자격 시험  (0) 2023.12.03
화자 분할 논문 리뷰  (0) 2023.11.16
Salmonn(2023. 10. 26.)  (1) 2023.11.03
AI 화자 인식_DenseNet, ResNet, Ensemble  (0) 2023.10.30
AI 강연 리뷰  (2) 2023.10.30