Salmonn(2023. 10. 26.)

728x90

SMALL

이중 인코더 구조

이중 청각 인코더를 장착한 살몬은 음성 인식, 오디오 캡션, 음성 번역 등의 작업에서 좋은 성능을 보임

훈련되지 않은 언어에 대한 음성 번역, 키워드 추출 등 다양한 비훈련 이해 작업

성능 개선: the Whisper speech model (Radford et al., 2023) and a BEATs audio encoder (Chen et al., 2023c)

백본 LLM인 비쿠나는 음성 전사를 기반으로 모든 과제 레벨2 작업 수행 가능(음성 키워드 추출(KE), 음성 질의 기반 질문 답변(SQQA), 음성 콘텐츠에서 얻은 엔티티의 정확도 평가 - 슬롯채우기(SF), 음성기반 NLP과제)

과제레벨 3 : 엔드 투 엔드 방식으로 이해 및 추론하 과제 - 오디오 기반 스토리텔링과 음성 오디오 공동 추론(SAC)

- 스토리텔링: 입력된 청각 정보 바탕으로 의미 있는 스토리 작성

- SAC : 입력 오디오 클립에 포함된 음성 질문 이해하고 배경 오디오의 이벤트나 음악에서 증거를 찾고 추론하여 질문에 답변 모델

728x90

LIST

AI 오디오처리 (0)	2023.11.28
화자 분할 논문 리뷰 (0)	2023.11.16
AI 화자 인식_DenseNet, ResNet, Ensemble (0)	2023.10.30
AI 강연 리뷰 (2)	2023.10.30
AI Model study (0)	2023.10.27

에리히프롬