본문 바로가기
AI, 머신러닝, 딥러닝, 데이터 분석

AI 화자 인식_DenseNet, ResNet, Ensemble

by 포로리다 2023. 10. 30.
728x90
반응형
SMALL

장중부(2022), '앙상블 모델을 활용한 화자인식 정확도 향상', 한양대학교 공학대학원, 석사 학위 논문

음성인식은 크게 음성인식 (Speech Recognition) 과 화자인식 (Speaker Recognition) 의 두 가지 기술로 구분할 수 있다.

첫번째 음성인식 (Speech Recognition) 은 발화 그 자체를 그대로 인식하여 어떤 의미인지 파악하고 명령을 실행하는 기술로, 현재 대부분의 AI 스피커들이 채택하고 있는 방식이다.

두번째 화자인식 (Speaker Recognition) 은 실제 발화를 진행한 화자가 누구인지 분석하는 기술로, 이는 다시 화자식별 (Speaker Identification) 과 화자검증 (Speaker Verification) 과정으로 구분된다. 이를 통해 다수의 발화자 가운데 발성화자가 누구인지를 확인하고, 확인된 화자의 음성이 등록된 화자와 동일인인지 검증하는 단계를 거치게 된다.

화자인식의 성능 개선은 반드시 해결해야 하는 문제 -> 화자인식 기능이 보안 매체의 수단으로 자리잡게 되면, 개인정보보호 등의 중요한 기능을 수행할 수 있기 때문

현재 딥러닝 모델을 통해 화자인식의 성능을 개선하는 연구는 활발하게 진행되고 있으며, 특히 MFCC 방식으로 추출된 음성 데이터셋을 이미지 분류에 사용되던 CNN 모델에 입력값으로 하는 방식이 주로 사용되고 있다.

이 과정에서 다양한 CNN 모델을 통해 학습이 이뤄지고 있으며, loss 함수의 경우 목표 데이터와 가장 유사한 것과 차이가 나는것을 구분하여 유사한 데이터는 근거리에 분류하고 차이가 나는 데이터는 멀리 분류하는 Triplet loss 함수를 사용하여 동일 화자의 음성인지를 분류하는 방식이 일반적으로 사용되고 있다.

 

현재 많은 수의 화자인식 모델은 ResNet 을 기반에 두고 있다. ResNet 은 이미지 분류를 위해 제안된 CNN 모델이나, 해당 모델이 가지고 있는 대표적인 특징인 공간 불변성과 부분 특징 추출 개념을 활용하여 화자인식을 위한 발화자의 특징 추출에 활용하는 개념으로 사용되었다.

 

ResNet 기반의 모델은 화자인식의 정확도를 개선함. 

1. 본 논문에서는 ResNet 자체의 성능을 개선한 DenseNet 모델과의 비교를 통해 DenseNet 을 화자인식에 활용하더라도 유의미한 성능 개선을 이뤄낼 수 있을 지 검토

2. ResNet 과 DenseNet 을 Ensemble 한 모델을 통해 더욱 성능 개선을 이끌어낼 수 있을지 비교

 

2023. 07. 화자 인식이란?

https://learn.microsoft.com/ko-kr/azure/ai-services/speech-service/speaker-recognition-overview

음성 생체 측정을 사용하여 말하는 사람의 고유한 음성 특성으로 말하는 사람을 확인하고 식별할 수 있습니다.

 

(23년 자료) https://www.a-ha.io/questions/4a25852a5acd3fcabf3b7960012a1030

728x90
반응형
LIST

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

화자 분할 논문 리뷰  (0) 2023.11.16
Salmonn(2023. 10. 26.)  (1) 2023.11.03
AI 강연 리뷰  (2) 2023.10.30
AI Model study  (0) 2023.10.27
GIT  (0) 2023.10.26