Sampling
Sampling rate는 아날로그 정보를 얼마나 잘게 쪼갤지를 결정
잘게 쪼갤수록 정보 손실이 줄어들지만, 데이터의 크기가 늘어남
사람 목소리 구분할 수 있는 최소값 = 전화 품질
Speech communication : 8 kHz(8000 sample/second)
#보간법 - 로우패스필터 사용해서(ex.높은 주파수대 영역들)보간을 시킨다.
#16000의 샘플링 레이트를 8천으로 줄임
#16000과 차이는 소리가 전화 통화에서 들리는 소리, 오리지널과 차이 존재 -> 어눌해짐
#즉, 적게 쪼갤수록 음질이 좋지 않아짐
음성의 duration은 데이터의 길이와 sampling rate를 나누어 확인 가능
- 가정. 남성 음성 구분 시 이 작업해주면 구분을 잘 할 수 있지 않을까?
Mu-Law Encoding
이러한 특성을 wave값을 표현하는데 반영해 작은 값에는 높은 분별력을, 큰 값끼리는 낮은 분별력을 갖도록 함
pitches 피치 값이 커질 수록 음이 높아짐
- 푸리에 변환
시계열 데이터의 일정한 시간 구간(윈도우 사이즈)
- Duration
샘플링 레이트를 window로 나눈 값
T=window/SR
T(Window) = 5T(Signal), duration은 신호주기보다 5배 이상 길게 잡아야함
440Hz 신호의 window size는 5*(1/440)
스펙트럼 센트로이드(Spectral Centroid)
주파수의 스펙트럼의 가중 평균과 같음
Udemy speaker diarization 수강 노트
세그멘테이션
세그먼트가 너무 짧으면 각 음성 특징 정보가 충분하지 않음
서그먼트가 너무 길면 여러 스피커들이 포함되어 버림
스피커 변경 감지를 사용하면 개선 가능,
- 스피커 변경 감지 방법
1. 윈도우 비교
* 각각 스피커 임베딩 추출 후 임베딩 비교,
2. 윈도우 분류
* 이진 분류
3. asr 인식
비지도 클러스터링
세그먼트에서 스피커 임베딩 추출 후 임베딩 값을 클러스터링 한다.
클러스터링 알고리즘이 존재함, 클러스터링은 분류와 달라서 비지도.
대기시간에 따라서 아래와 같이 구분
- 온라인 클러스터링 : 새 임베딩값을 바로 분류
- 오프라인 클러스터링 : 모든 임베딩이 끝날 때까지 기다렸다가 분류
두 개의 임베딩값은 코사인 유사도 또는 유클리디안거리 사용
클러스터는 여러 입메딩의 집합이어서 코사인이나 유클리디안으로 직접 계산할 수 없음.
Linkage
* 평균 링크 - 모든 임베딩 쌍의 평균 거리
* 센트로이드 링트 - 두 연결 거리의 중심값
* 완성/컴플리트 링크 - 맥시멈 거리, 가장 먼 임베딩 값
* 싱글 링크 - 각 연결의 최소거리 구함.
'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글
AI-900 인공지능 자격 시험 (0) | 2023.12.03 |
---|---|
화자 분할 논문 리뷰 (0) | 2023.11.16 |
Salmonn(2023. 10. 26.) (1) | 2023.11.03 |
AI 화자 인식_DenseNet, ResNet, Ensemble (0) | 2023.10.30 |
AI 강연 리뷰 (2) | 2023.10.30 |