- 강의자: 연세대학교 남길임 교수
- 개최지: 제주대학교
'짝이 없고'에 어떤 특성이 있나?
긍정보단 부정적인 말에 자연스러움(착하기 짝이 없다/바람은 싱그럽지 짝이 없고는 어색함)
= 즉, 부정적인 말에 경향성이 있음
그러나 좌측 시에서 쓰인 아름답기 짝이 없고가 비문은 아님(틀린 것은 아님)
= 즉, 말뭉치 언어학은 쟁점이 경향성에 초점과 관점이 맞추어져 있음(옳고 그름에 초점x)
유의어
피로를 겪는다(부자연) - 피로를 느낀다(자연스러움)
광고 비용이 증가하지 짝이 없다.(부자연)
-> 정문과 비문의 판별 보다는 자연스러운과 그렇지 않음 두 관점의 차이에 대해 초점이 맞추어진 말뭉치언어학
한국어학습자는 자연, 부자연스러움을 판별하기 어려워 함.
8-90%의 경향성을 지닌 경향성의 부분은 학습자를 위해 교재에서 알려주지 않음, 이러한 부분에 대한 고민 필요
말뭉치 언어학은 파롤의 문법, 언어수행의 문법
- 언어능력, 랑그는 (논리가 중요, 말뭉치 언어학과 반대 경향)
- 말뭉치언어학의 정신을 고려하여 논문을 쓰는 것이 좋음.(단순 빈도 분석 연구보다는)
- 말뭉치언어학의 관점, 정문과 비문을 인정하는지 아닌지 (말뭉치 언어학 논문에서는 * 오류 표시를 쓰지 않음, 1%의 가능성을 가지고 있다고 생각하면 * 를 쓰지 않음)
- 말뭉치 언어학이 중요하게 생각하는 것: 객관적인 수치인 빈도
- 빈도를 어떻게 해석할 것인가?
- 어휘와 문법 중 어휘에 좀더 초점이 맞춰져 있음
- lexicogrammar = 어휘와 문법을 구분할 수 없음.
- ㄹ 수(#) 없-(이해할 수 없다.) : '능력 부정'의 경우 못 부정만 다루면 안 됨. -ㄹ 수 없-도 높은 비중을 차지하기 때문에 포함하여야 함.
- 말뭉치 연구에서 중요
1. 양/ 구조
2. 활용
정리
1. 경향성 중요
2. 빈도 중요
3. 어휘와 문법 중 어휘에 좀더 초점이 맞춰져 있음
빈도의 해석
- 문어의 경우 형태소 분석기가 분석을 잘 해 줌, 쉽게 추출 가능
2) 관련, 세종 말뭉치의 경우 문어 1000만어절이면 구어 1/10 비율로 적음. 양/규모의 차이가 존재함
=> 상대 빈도 (각 빈도가 말뭉치 규모에 영향 받지 않도록 계산하여 나타낸 빈도)
3) 관련, 하나의 기사에서 10번 등장: 개인화 가능성 존재
몇 명의 화자가 썼는지가 중요함 = 범위(range) '학습자말뭉치 나눔터'에서도 확인 가능
- Q1. 일반부사의MAG 빈도 표 구분
회색: 문어, 노란색: 구어
- Q2. 문어는 정보적 텍스트가 많음. 구어는 주관적인 의사소통과 강조가 많아서 부사 많이 사용함.
ㄴ막, 이렇게, 인제, 되게 등 특별한 의미없이 시간을 버는 용도
메신저에서 ㅋㅋ 빈도 및 점유율이 매우 높음
빠가의 순위가 높음
-> *빠가를 꼭 가르쳐야 하는 중요 어휘인가? 오류 발생 가능성 존재.
어떤 어휘와 문법은 항상 특정적인 것과 결합됨 = 어휘와 문법의 공기 경향성(잠 못 이루는)
한국어 학습자에게 예기치 못한, 예기치 않은 을 가르치면 됨
말뭉치언어학은 정문과 비문이 아닌, 1%, 99% / 2% 98% 의 경향성으로 논의됨
C관련. '계산적이다.' 화자의 의도가 부정적일 떄 자주 사용(상대방을 부정적으로 판단할 때 표현)
'풍부하다' 는 화자의 의도가 긍정적일 때 자주 사용함. but 조미료가 풍부하다라고 표현했을 떄 유머일 수도 있고 화자의 숨은 의도가 존재할 수 있음
=> 즉, 말뭉치 언어학이란 살아있는 화자의 의도나 청자의 영향력을 연구함
- 주의해야할 사항
ㅇ 100%가 아님
- 계획적이다. 라느 것이 구어에서는 부정적일 수 있지만, 문어에서는 부정적인 경우가 아닐 확률이 높음(보고서 등에서 계획적 개발 등의 케이스) , 빈도를 논의할 때 장르에 따른 역동성도 고려 필요
한국어 학습자 말뭉치 나눔터
국립국어원 한국어 학습자 말뭉치 나눔터
자료 구축 현황 (구축 기간: 2015. 5. ~ 2023. 12.)
kcorpus.korean.go.kr
통계 > 유형별 구축 현황
https://kcorpus.korean.go.kr/service/goTypeStatusAll.do
- 반드시 봐야할 부분: 자료 유형별 구축 현황 마우스 오버
ㄴ문어와 구어의 비율 다름
ㄴ 표본의 비율과 어절의 비율: 표본 수와 어절 수가 다르다는 것을 반드시 인지해야 함(어절 수에 초점 맞춰야 함)
이 검색결과 빈도와 문어/구어의 빈도 비교하면서 확인해 볼 것
검색결과 한국어 학습자 말뭉치에서는 접속부사 중 그리고의 빈도가 가장 높음
100개씩 보기 옵션 설정, 못 중심어 가나다순으로 정렬 옵션 검색 후 내려받기해서 가장 뒷부분의 '못하다', '못하는' 등의 해당하지 않는 것들 제외하고 수치 계산 및 분석 필요.
용례 검색 시스템
ilis.yonsei.ac.kr
1. 내려받기 하여 자기 나름의 관점으로 재분석해야 함.
2. 사전의 한계 존재.
3. 어휘 구조의 복잡성, 어휘 경향성이 중요함. 학습자에게 어떤 제약이 있다고 가르치기 보다는 어떤 것이 더 자연스러운지 어휘 경향성에 대한 체계를 연구하고 가르치는 것이 좋음
마무리
※ 커버리지란?
의미적 운율
-
'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글
AI BPO사업 전망 (0) | 2025.02.28 |
---|---|
AI 보이스봇 저작 (0) | 2025.02.04 |
AI-900 인공지능 자격 시험, 결과 합격 (0) | 2023.12.03 |
AI 오디오처리 (0) | 2023.11.28 |
화자 분할 논문 리뷰 (0) | 2023.11.16 |