본문 바로가기
AI, 머신러닝, 딥러닝, 데이터 분석

한국어 학습자 말뭉치를 활용하여 논문 쓰기

by 포로리다 2024. 12. 7.
728x90
  • 강의자: 연세대학교 남길임 교수
  • 개최지: 제주대학교

'짝이 없고'에 어떤 특성이 있나?

긍정보단 부정적인 말에 자연스러움(착하기 짝이 없다/바람은 싱그럽지 짝이 없고는 어색함)

= 즉, 부정적인 말에 경향성이 있음

그러나 좌측 시에서 쓰인 아름답기 짝이 없고가 비문은 아님(틀린 것은 아님)

= 즉, 말뭉치 언어학은 쟁점이 경향성에 초점과 관점이 맞추어져 있음(옳고 그름에 초점x)

유의어 

오류 주석 검색 결과

 

피로를 겪는다(부자연) - 피로를 느낀다(자연스러움)

광고 비용이 증가하지 짝이 없다.(부자연)

-> 정문과 비문의 판별 보다는 자연스러운과 그렇지 않음 두 관점의 차이에 대해 초점이 맞추어진 말뭉치언어학

    한국어학습자는 자연, 부자연스러움을 판별하기 어려워 함.

    8-90%의 경향성을 지닌 경향성의 부분은 학습자를 위해 교재에서 알려주지 않음, 이러한 부분에 대한 고민 필요

 

말뭉치 언어학은 파롤의 문법, 언어수행의 문법

- 언어능력, 랑그는 (논리가 중요, 말뭉치 언어학과 반대 경향)

- 말뭉치언어학의 정신을 고려하여 논문을 쓰는 것이 좋음.(단순 빈도 분석 연구보다는)

- 말뭉치언어학의 관점, 정문과 비문을 인정하는지 아닌지 (말뭉치 언어학 논문에서는 * 오류 표시를 쓰지 않음, 1%의 가능성을 가지고 있다고 생각하면 * 를 쓰지 않음) 

- 말뭉치 언어학이 중요하게 생각하는 것: 객관적인 수치인 빈도

- 빈도를 어떻게 해석할 것인가?

- 어휘와 문법 중 어휘에 좀더 초점이 맞춰져 있음

- lexicogrammar = 어휘와 문법을 구분할 수 없음.

- ㄹ 수(#) 없-(이해할 수 없다.) : '능력 부정'의 경우 못 부정만 다루면 안 됨. -ㄹ 수 없-도 높은 비중을 차지하기 때문에 포함하여야 함.

- 말뭉치 연구에서 중요

1. 양/ 구조

2. 활용

 

정리

1. 경향성 중요

2. 빈도 중요

3. 어휘와 문법 중 어휘에 좀더 초점이 맞춰져 있음

빈도의 해석

- 문어의 경우 형태소 분석기가 분석을 잘 해 줌, 쉽게 추출 가능

2) 관련, 세종 말뭉치의 경우 문어 1000만어절이면 구어 1/10 비율로 적음. 양/규모의 차이가 존재함

 => 상대 빈도 (각 빈도가 말뭉치 규모에 영향 받지 않도록 계산하여 나타낸 빈도)

3)  관련, 하나의 기사에서 10번 등장: 개인화 가능성 존재

몇 명의 화자가 썼는지가 중요함 = 범위(range) '학습자말뭉치 나눔터'에서도 확인 가능

 

- Q1. 일반부사의MAG 빈도 표 구분

   회색: 문어, 노란색: 구어

- Q2. 문어는 정보적 텍스트가 많음. 구어는 주관적인 의사소통과 강조가 많아서 부사 많이 사용함.

ㄴ막, 이렇게, 인제, 되게 등 특별한 의미없이 시간을 버는 용도

메신저에서 ㅋㅋ 빈도 및 점유율이 매우 높음

빠가의 순위가 높음

-> *빠가를 꼭 가르쳐야 하는 중요 어휘인가? 오류 발생 가능성 존재.

어떤 어휘와 문법은 항상 특정적인 것과 결합됨 = 어휘와 문법의 공기 경향성(잠 못 이루는)

한국어 학습자에게 예기치 못한, 예기치 않은 을 가르치면 됨

말뭉치언어학은 정문과 비문이 아닌, 1%, 99% / 2% 98% 의 경향성으로 논의됨

C관련. '계산적이다.' 화자의 의도가 부정적일 떄 자주 사용(상대방을 부정적으로 판단할 때 표현)

  '풍부하다' 는 화자의 의도가 긍정적일 때 자주 사용함. but 조미료가 풍부하다라고 표현했을 떄 유머일 수도 있고 화자의 숨은 의도가 존재할 수 있음

  => 즉, 말뭉치 언어학이란 살아있는 화자의 의도나 청자의 영향력을 연구함 

- 주의해야할 사항

ㅇ 100%가 아님

 

- 계획적이다. 라느 것이 구어에서는 부정적일 수 있지만, 문어에서는 부정적인 경우가 아닐 확률이 높음(보고서 등에서 계획적 개발 등의 케이스) , 빈도를 논의할 때 장르에 따른 역동성도 고려 필요

 

한국어 학습자 말뭉치 나눔터

https://kcorpus.korean.go.kr/

 

국립국어원 한국어 학습자 말뭉치 나눔터

자료 구축 현황 (구축 기간: 2015. 5. ~ 2023. 12.)

kcorpus.korean.go.kr

 

 

 

통계 > 유형별 구축 현황

https://kcorpus.korean.go.kr/service/goTypeStatusAll.do

- 반드시 봐야할 부분: 자료 유형별 구축 현황 마우스 오버

ㄴ문어와 구어의 비율 다름

ㄴ 표본의 비율과 어절의 비율: 표본 수와 어절 수가 다르다는 것을 반드시 인지해야 함(어절 수에 초점 맞춰야 함)

이 검색결과 빈도와 문어/구어의 빈도 비교하면서 확인해 볼 것

검색결과 한국어 학습자 말뭉치에서는 접속부사 중 그리고의 빈도가 가장 높음

 

 

100개씩 보기 옵션 설정, 못 중심어 가나다순으로 정렬 옵션 검색 후 내려받기해서 가장 뒷부분의 '못하다', '못하는' 등의 해당하지 않는 것들 제외하고 수치 계산 및 분석 필요.

 

 

용례 검색 시스템 (yonsei.ac.kr)

용례 검색 시스템 (yonsei.ac.kr)

 

용례 검색 시스템

 

ilis.yonsei.ac.kr

1. 내려받기 하여 자기 나름의 관점으로 재분석해야 함.

2. 사전의 한계 존재.

3. 어휘 구조의 복잡성, 어휘 경향성이 중요함. 학습자에게 어떤 제약이 있다고 가르치기 보다는 어떤 것이 더 자연스러운지 어휘 경향성에 대한 체계를 연구하고 가르치는 것이 좋음

 

마무리 

※ 커버리지란?

의미적 운율

728x90

'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글

AI BPO사업 전망  (0) 2025.02.28
AI 보이스봇 저작  (0) 2025.02.04
AI-900 인공지능 자격 시험, 결과 합격  (0) 2023.12.03
AI 오디오처리  (0) 2023.11.28
화자 분할 논문 리뷰  (0) 2023.11.16