간단하게 아이템에 대한 등급 정보를 합한후 평균값을 제강하는 방법 – 가장 인기있는 등급이 높은 상위 열개의 아이템을 뽑을때 유용할 것이다.
클러스터링- 비슷한 사용자들을 묶어줄수있는 기법
: 특정 사용자와 비슷한 사용자들의 그룹에서 계산되어 나온 아이템의 평균 등급은 이전에 설명한 일반적인 평균 등급에 비해 더 적절하다.
사진1 | 사진2 | 사진3 | 평균 | |
제인 | 3 | 4 | 2 | 3 |
도 | 2 | 2 | 4 | 8/3 |
존 | 1 | 3 | 5 | 3 |
평균 | 2 | 3 | 11/3 | 26/3 |
위의 예제 데이터를 기반으로 아래와 같은 질문에 답을 해 보자
1. 특정 아이템과 유사한 아이템은 무엇인가?
2. 한 사용자와 유사한 다른 사용자는 누구인가?
이에 대한 답변은 코사인 기반 유사도와 상관계 기반 유사도, 적응 코사인기반 유사도 기법을 사용해 도출할수 있다.
1. 코사인 기반의 유사도 관계
: 두 벡터의 내적
: 행이 사진, 열이 사용자에 상응되게끔 행렬을 전치 한다. 열의 각 항목이 의미하는 바는 사진을 설명하는 차원이라 생각하면된다.
:첫번째 행에서는 ROOT(3^2+2^2+1^2) = root14 = 3.1744
존 | 제인 | 도 | |
사진1 | 0.8018 | 0.5345 | 0.2673 |
사진2 | 0.7428 | 0.3714 | 0.557 |
사진3 | 0.2981 | 0.5963 | 0.7454 |
이 결과를 기반으로 벡터의 내적을 계산하면 두아이템간의 유사도를 알수 있다.
사진 1과 사진 2의 유사도는 (0.8018*0.7428)+(0.5345+0.3714)+(0.2673+0.557)= 0.943
이를 이용해 아이탬 대 아이탬 유사도 테이블을 만들어 보면
사진1 | 사진2 | 사진3 | |
사진1 | 1 | 0.943 | 0.757 |
사진2 | 0.943 | 1 | 0.858 |
사진3 | 0.757 | 0.858 | 1 |
사용자와 아이템간의 유사도 구하는 방법
ROOT(3^2+4^2+2^2) = ROOT(29) = 5.385
사진1 | 사진2 | 사진3 | |
존 | 0.5571 | 0.7428 | 0.3717 |
제인 | 0.4082 | 0.4082 | 0.8165 |
도 | 0.1690 | 0.5071 | 0.8452 |
각 사용자에 대한 정규화된 등급 벡터를 구해 보았다.
이 내용을 이용해서 사용자 사이의 유사도 테이블을 구해보면
존 | 제인 | 도 | |
존 | 1 | 0.83 | 0.78 |
제인 | 0.83 | 1 | 0.97 |
도 | 0.78 | 0.97 | 1 |
이방법의 대안인 사용자가 제공한 값의 평균값과 해당 등급 정보와의 분산에 중점을 둔 방법을 설명한다.
상관관계 기반 유사도, 적응 코사인 기반 유사도 계산은 패스~