728x90 salmonn#aimodel#llm#gpt#chatgpt#1 Salmonn(2023. 10. 26.) 이중 인코더 구조 이중 청각 인코더를 장착한 살몬은 음성 인식, 오디오 캡션, 음성 번역 등의 작업에서 좋은 성능을 보임 훈련되지 않은 언어에 대한 음성 번역, 키워드 추출 등 다양한 비훈련 이해 작업 성능 개선: the Whisper speech model (Radford et al., 2023) and a BEATs audio encoder (Chen et al., 2023c) 백본 LLM인 비쿠나는 음성 전사를 기반으로 모든 과제 레벨2 작업 수행 가능(음성 키워드 추출(KE), 음성 질의 기반 질문 답변(SQQA), 음성 콘텐츠에서 얻은 엔티티의 정확도 평가 - 슬롯채우기(SF), 음성기반 NLP과제) 과제레벨 3 : 엔드 투 엔드 방식으로 이해 및 추론하 과제 - 오디오 기반 스토리텔링과 음성 .. 2023. 11. 3. 이전 1 다음 728x90