본문 바로가기
728x90

AI, 머신러닝, 딥러닝, 데이터 분석19

AI-900 인공지능 자격 시험 문제은행 답만 확인 8. 청각, 시각 기타 장애 Inlcusiveness 9. 예상치 못한 조건 unacticipated conditions -> safety AI가 내린 결정 -> 책임감 어카운트 소비자에게 데이터 수집 -> 프라이버시 시큐리티 10. 예기치 않은 상황~에서 Safety 11. 투명성 원칙 = transparency---> debug debug 나오면 정답. 한번 밖에 안 나옴. 13. 장벽 barriers -> 답 inclusiveness 18 (대출 승인여부 평가) 요소 설명 -> 투명성 19 결과에 대한 설명 -> 투명성 챗봇 + 안정성 및 원칙-> x NO 20. 성별, 인종 차별 -> 공정성 승인 개인데이터 -> 프라이버스 시큐리 22. 앱이 책임있는 AI원칙 사용하는지 확인 .. 2023. 12. 3.
AI 오디오처리 Sampling Sampling rate는 아날로그 정보를 얼마나 잘게 쪼갤지를 결정 잘게 쪼갤수록 정보 손실이 줄어들지만, 데이터의 크기가 늘어남 사람 목소리 구분할 수 있는 최소값 = 전화 품질 Speech communication : 8 kHz(8000 sample/second) #보간법 - 로우패스필터 사용해서(ex.높은 주파수대 영역들)보간을 시킨다. #16000의 샘플링 레이트를 8천으로 줄임 #16000과 차이는 소리가 전화 통화에서 들리는 소리, 오리지널과 차이 존재 -> 어눌해짐 #즉, 적게 쪼갤수록 음질이 좋지 않아짐 음성의 duration은 데이터의 길이와 sampling rate를 나누어 확인 가능 - 가정. 남성 음성 구분 시 이 작업해주면 구분을 잘 할 수 있지 않을까? Mu-L.. 2023. 11. 28.
화자 분할 논문 리뷰 - 출처: 잡음 환경에서의 심층신경망 기반 음성 향상 및 종단 간 화자 분할 시스템, 정재희(2023) - 한계: 많은 화자가 포함되는 데이터의 경우 분류해야 할 클래스 수가 기하급수적으로 많아져 성능이 오히려 떨어질 가능성이 있다는 단점을 지님 (과거)클러스터링 기반 방법 -> (현재)심층 신경망 기반의 종단 간 화자 분할 시스템 클러스터링 기반 방법 - 여러 모듈 거쳐 수행됨 잡음 잔향 제거 위해 음성 향상 or 잔향 제거(dereverberation) 등의 전처리 묵음 구간 최대한 제거 -> 발화구간에 대해서만 레이블링하도록 음성 검출기 적용(짧은 길이의 세그먼트로 분할, 각 세그먼트마다 x-vector, d-vector 처럼 화자 특징 추출) 추출한 화자 특징은 클러스터링 기법(AHC, 스펙트럼 .. 2023. 11. 16.
Salmonn(2023. 10. 26.) 이중 인코더 구조 이중 청각 인코더를 장착한 살몬은 음성 인식, 오디오 캡션, 음성 번역 등의 작업에서 좋은 성능을 보임 훈련되지 않은 언어에 대한 음성 번역, 키워드 추출 등 다양한 비훈련 이해 작업 성능 개선: the Whisper speech model (Radford et al., 2023) and a BEATs audio encoder (Chen et al., 2023c) 백본 LLM인 비쿠나는 음성 전사를 기반으로 모든 과제 레벨2 작업 수행 가능(음성 키워드 추출(KE), 음성 질의 기반 질문 답변(SQQA), 음성 콘텐츠에서 얻은 엔티티의 정확도 평가 - 슬롯채우기(SF), 음성기반 NLP과제) 과제레벨 3 : 엔드 투 엔드 방식으로 이해 및 추론하 과제 - 오디오 기반 스토리텔링과 음성 .. 2023. 11. 3.
728x90