본문 바로가기
AI, 머신러닝, 딥러닝, 데이터 분석

Salmonn(2023. 10. 26.)

by 포로리다 2023. 11. 3.
728x90
반응형
SMALL

이중 인코더 구조

이중 청각 인코더를 장착한 살몬은 음성 인식, 오디오 캡션, 음성 번역 등의 작업에서 좋은 성능을 보임

훈련되지 않은 언어에 대한 음성 번역, 키워드 추출 등 다양한 비훈련 이해 작업

 

성능 개선: the Whisper speech model (Radford et al., 2023) and a BEATs audio encoder (Chen et al., 2023c)

백본 LLM인 비쿠나는 음성 전사를 기반으로 모든 과제 레벨2 작업 수행 가능(음성 키워드 추출(KE), 음성 질의 기반 질문 답변(SQQA), 음성 콘텐츠에서 얻은 엔티티의 정확도 평가 - 슬롯채우기(SF), 음성기반 NLP과제) 

 

과제레벨 3 : 엔드 투 엔드 방식으로 이해 및 추론하 과제 - 오디오 기반 스토리텔링과 음성 오디오 공동 추론(SAC)

- 스토리텔링: 입력된 청각 정보 바탕으로 의미 있는 스토리 작성

- SAC : 입력 오디오 클립에 포함된 음성 질문 이해하고 배경 오디오의 이벤트나 음악에서 증거를 찾고 추론하여 질문에 답변 모델

 

Please list each event in the audio in order.

 

How many speakers did you hear in this audio? Who are they?

Describe the emotion of the speaker

Please answer the question in detail.

Please describe the music in detail.

What is the emotion of the music? Explain the reason in detail.

728x90
반응형
LIST

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

AI 오디오처리  (0) 2023.11.28
화자 분할 논문 리뷰  (0) 2023.11.16
AI 화자 인식_DenseNet, ResNet, Ensemble  (0) 2023.10.30
AI 강연 리뷰  (2) 2023.10.30
AI Model study  (0) 2023.10.27