손지은.김성범.김현중.조성준(2015), '추천 시스템 기법 연구동향 분석' , 고려대학교 산업경영공학과 / 서울대학교 산업공학과
다양한 추천 시스템의 종류, 특징, 장단점
- 콘텐츠 기반 접근 방식 & 협력 필터링
- 위 방식의 단점 보완을 위한 하이브리드 추천 시스템
- 연관성 분석 바탕으로 연구된 추천 시스템
- 시간적 역동성을 고려한 추천 시스템
- 다양성 향상을 위한 추천 시스템
- 추천 시스템의 성능을 평가하는 기법
- 실제로 추천 시스템을 성공적으로 적용한 사례
- 추천 시스템을 구현할 수 있는 소프트웨어를 소개
판매자 입장에서 개개인의 선호도를 고려해 적절한 아이템을 추천해주고 이를 구매로 연결시키는 것은 이윤창출과 직결되므로 적절한 아이템 추천의 중요성이 대두되고 있다(Das et al., 2013).
가장 간단한 추천 방식
방법 | 베스트셀러 기반 추천 방법 | 최소 질의 대상 상품결정 방법(질의 응답) |
특성 | 판매량 많은 순으로 추천 | 직접 설문하여 얻은 정보를 통해 선호도를 파악하고 상품 추천하는 방식 |
장점 | 유저 개인 정보 없이도 신속히 바로 추천 가능 | 개인화 된 추천이 가능하고 간편한 알고리즘으로 구현될 수 있음 |
문제점 | 개인의 취향 고려 X 개인화된 추전 불가능 | 고객이 응답을 불완전하고 부정확하게 할 경우 추천결과에 대한 신뢰성이 저하될 수 있는 문제 |
↓
개인화 된 추천 시스템을 구현하기 위해 정보필터링 방법과 연관성 분석 등 다양한 추천 기법이 연구되고 있다
2. 콘텐츠 기반 접근 방식
아이템의 콘텐츠를 직접 분석하여 아이템과 아이템 혹은 아이템과 사용자 선호도간 유사성을 분석하여 이를 토대로 고객에게 아이템을 추천해주는 방식
유저가 직접 입력한 프로파일 정보나 유저가 아이템에 대해 평가한 점수 , 과거 구매내역을 바탕으로 생성된 정보를 통해 선호하는 아이템 파악
분석의 용이함과 메타데이터의 가용성으로 인해 영화, 음악, 도서뿐만 아니라 텍스트 기반의 뉴스나 인터넷 기사 등을 추천하는데 널리 쓰이고 있다(Pazzani et al.,2007).
특징
(1) 독립적 정보 활용 : 추천하고자 하는 고객의 독립적인 정보만을 필요
(2) 새로운 아이템
- 아이템에 대한 평가점수가 존재하지 않더라도 아이템간의 속성을 파악하여 카테고리에 할당된다. 최종적으로, 사용자가 선호하는 아이템 속성과 유사도가 높은 카테고리의 아이템들이 사용자에게 추천되기 때문에 First rater 문제가 발생X
(3) 과도한 특수화(Over Specialization)
- 이전에 구매한 상품과 너무 비슷한 상품들만이 추천된다는 문제점 - 상품의 다양성을 보장할 수 없
- 해결 방안: 추천 과정에서 유전자 알고리즘을 적용하여 무작위 요소를 추가하거나 돌연변이 방식을 사용하는 기법이 제안되었고, 이는실험을 통해 기존 콘텐츠기반 접근방식보다 우수한 성능을 보임을 입증하였다(Sheth et al., 1993).
접근 방식
(1) 아이템 속성 분석
- 구조적 데이터 :
아이템의 속성이 명확히 정의되어 있고 이에 따른 아이템의 속성 값이 구조적으로 입력되어있는 데이터
아이템을 잘 표현할 수 있는 속성의 개수가 비교적 적고 아이템마다 각 속성에 해당하는 값이 모두 존재
예) 주연배우, 감독, 개봉일, 장르, 배급사 등에 대한 속성값을 가지고 있는 영화 데이터베이스
기존의 K-means와 같은 기계학습 알고리즘을 적용하여 비슷한 속성의 아이템으로 구성된 카테고리를 생성할 수 있다(Pazzani et al., 2007).
- 비구조적 데이터 : 이미지, 소리, 텍스트, 속성 정의가 어렵다는 단점.
- 텍스트 데이터에서 콘텐츠 기반 접근 방식
- 키워드 분석 :각 텍스트 아이템에서 키워드를 추출한 뒤 키워드를 비교하여 유사도를 계산한다. 즉, 사용자가 선호하는 아이템과 키워드 유사도가 높은 아이템을 추천 리스트에 포함시킨다. 대표적인 방법 TF-IDF , 단어 가중치가 높은 상위 N개의 단어가 키워드로 선택
- 문제점: 하나의 단어가 다양한 의미를 가지는 경우 실제로 유사하지 않은 아이템이 추천 될 수 있으며,
반대로 다양한 단어로 표현되지만 실제로 같은 의미를 가지는 경우에는 내용적으로 유사한 아이템일지라도 유사도가 낮으므로 추천 리스트에서 누락 될 수 있다(Wartena et al., 2011).
- 문제점: 하나의 단어가 다양한 의미를 가지는 경우 실제로 유사하지 않은 아이템이 추천 될 수 있으며,
- 의미 분석: 키워드 분석의 한계 개선을 위해 단어의 단순 스트링 비교가 아닌 내용 파악을 목적으로 하므로 보다 정확도 높은 추천 결과를 도출할 수 있다. 의미론 분석에서는 품사 별 동의어 관계를 링크로 연결한 대형 네트워크 형태의 워드넷(Wordnet)이 가장 널리 이용되고 있다
- 키워드 분석 :각 텍스트 아이템에서 키워드를 추출한 뒤 키워드를 비교하여 유사도를 계산한다. 즉, 사용자가 선호하는 아이템과 키워드 유사도가 높은 아이템을 추천 리스트에 포함시킨다. 대표적인 방법 TF-IDF , 단어 가중치가 높은 상위 N개의 단어가 키워드로 선택
(2) 사용자 선호도 학습
첫 번째 방법) 사용자가 직접 흥미 분야에 대해 입력한 프로파일 정보를 이용하는 것
- 한계점: 정보를 정확하게 입력하는 사용자를 확보하는 것이 어렵고, 정확히 입력하였다고 해도 추후에 사용자의 선호 경향이 변화할 경우 올바른 추천 리스트 제공이 어렵다, 아이템들의 중요도를 판단할 수 없기 때문에 정교한 추천 성능을 보장할 수 없다.
두 번째 방법) 자신의 과거 구매이력 정보를 분석
나이브 베이즈모델, 의사결정나무, K-근접이웃 기법 등과 같은 기계학습을 이용하여 선호도를 정확하게 파악하여 추천의 성능을 향상시키고자 하는 다양한 연구 제안됨
'AI, 머신러닝, 딥러닝, 데이터 분석' 카테고리의 다른 글
딥러닝 RNN (0) | 2023.08.29 |
---|---|
[프로그래머스] 파이썬 최댓값 만들기 ver. 2 (0) | 2023.08.07 |
[추천 사이트] Paperwithcode AI 논문과 코드가 있는 사이트 (0) | 2023.08.01 |
02_Study Python (0) | 2023.06.27 |
01_Basic (0) | 2023.06.26 |