AI 오디오처리

728x90

Sampling

Sampling rate는 아날로그 정보를 얼마나 잘게 쪼갤지를 결정
잘게 쪼갤수록 정보 손실이 줄어들지만, 데이터의 크기가 늘어남

사람 목소리 구분할 수 있는 최소값 = 전화 품질

Speech communication : 8 kHz(8000 sample/second)

#보간법 - 로우패스필터 사용해서(ex.높은 주파수대 영역들)보간을 시킨다.
#16000의 샘플링 레이트를 8천으로 줄임
#16000과 차이는 소리가 전화 통화에서 들리는 소리, 오리지널과 차이 존재 -> 어눌해짐
#즉, 적게 쪼갤수록 음질이 좋지 않아짐

음성의 duration은 데이터의 길이와 sampling rate를 나누어 확인 가능

- 가정. 남성 음성 구분 시 이 작업해주면 구분을 잘 할 수 있지 않을까?

Mu-Law Encoding

이러한 특성을 wave값을 표현하는데 반영해 작은 값에는 높은 분별력을, 큰 값끼리는 낮은 분별력을 갖도록 함

pitches 피치 값이 커질 수록 음이 높아짐

- 푸리에 변환

시계열 데이터의 일정한 시간 구간(윈도우 사이즈)

- Duration
샘플링 레이트를 window로 나눈 값
T=window/SR
T(Window) = 5T(Signal), duration은 신호주기보다 5배 이상 길게 잡아야함
440Hz 신호의 window size는 5*(1/440)

스펙트럼 센트로이드(Spectral Centroid)
주파수의 스펙트럼의 가중 평균과 같음

Udemy speaker diarization 수강 노트

세그멘테이션

세그먼트가 너무 짧으면 각 음성 특징 정보가 충분하지 않음

서그먼트가 너무 길면 여러 스피커들이 포함되어 버림

스피커 변경 감지를 사용하면 개선 가능,

- 스피커 변경 감지 방법

1. 윈도우 비교

* 각각 스피커 임베딩 추출 후 임베딩 비교,

2. 윈도우 분류

* 이진 분류

3. asr 인식

비지도 클러스터링

세그먼트에서 스피커 임베딩 추출 후 임베딩 값을 클러스터링 한다.

클러스터링 알고리즘이 존재함, 클러스터링은 분류와 달라서 비지도.

대기시간에 따라서 아래와 같이 구분

- 온라인 클러스터링 : 새 임베딩값을 바로 분류

- 오프라인 클러스터링 : 모든 임베딩이 끝날 때까지 기다렸다가 분류

두 개의 임베딩값은 코사인 유사도 또는 유클리디안거리 사용

클러스터는 여러 입메딩의 집합이어서 코사인이나 유클리디안으로 직접 계산할 수 없음.

Linkage

* 평균 링크 - 모든 임베딩 쌍의 평균 거리

* 센트로이드 링트 - 두 연결 거리의 중심값

* 완성/컴플리트 링크 - 맥시멈 거리, 가장 먼 임베딩 값

* 싱글 링크 - 각 연결의 최소거리 구함.

728x90

저작자표시 비영리 변경금지 (새창열림)

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

한국어 학습자 말뭉치를 활용하여 논문 쓰기 (0)	2024.12.07
AI-900 인공지능 자격 시험, 결과 합격 (0)	2023.12.03
화자 분할 논문 리뷰 (0)	2023.11.16
Salmonn(2023. 10. 26.) (1)	2023.11.03
AI 화자 인식_DenseNet, ResNet, Ensemble (0)	2023.10.30

에리히프롬

AI 오디오처리

Udemy speaker diarization 수강 노트

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

티스토리툴바

AI 오디오처리

Udemy speaker diarization 수강 노트

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

관련글

티스토리툴바