본문 바로가기

Data Science

KNN,Naive Bayes, Laplacian Correction 연습 문제 모음

반응형

K-NN 분류 연습 문제

다음과 같은 데이터 세트가 있다고 가정합니다. 새로운 데이터 포인트 (5, 5)를 분류하기 위해 K-NN 알고리즘을 사용합니다. K=3일 때, 새로운 데이터 포인트의 클래스를 예측하세요.

 

Index X Y Class
2 2 2 B
3 3 3 B
4 6 6 A
5 7 7 B
6 8 8 D

 

(5,5)와 가장 가까운 점 세 개는 (3,3,B),(6,6,A),(7,7,B)이다.

 

정답 : (5,5) 예측 클래스 :B 


Naive Bayes

1. ( 라플라스 보정이 필요 없는 경우)

고 객 웹사이트 방문 여부 이메일 클릭 여부 장바구니 추가 여부 이전 구매 여부 구매
고객 1 O X O X 구매
고객 2 X O X O 미구매
고객 3 X O O X 구매
고객 4 O X X O 미구매
고객 5 X O X X 구매
고객 6 O X O O 미구매
고객 7 X O O O 구매
고객 8 X X O X 미구매
고객 9 O O X O 구매
고객 10 X X X X 미구매

 

아래의 조건을 만족 했을 때 고객이 상품을 구매했을 확률을 구하시오.

 

  • 웹사이트 방문 여부: X
  • 이메일 클릭 여부: O
  • 장바구니 추가 여부: O
  • 이전 구매 여부: X

정답:

P(고객이 상품 구매 했을 확률)xP( !웹사이트 방문 | 고객이 상품 구매) x P( 이메일 클릭| 고객이 상품 구매) x P(장바구니 추가| 고객이 상품 구매)xP( !이전 구매 | 고객이 상품 구매) = 5/10 x 3/5 x 4/5 x 3/5 x 3/5  =0.0864 

 

2. ( 라플라스 보정이 필요한 경우)


 

메일 단어 '무료' 포함 단어 '즉시' 포함 링크 포함 이미지 포함 스팸
이메일 1 O X O X 스팸
이메일 2 X O X O 스팸
이메일 3 O O O X 스팸
이메일 4 X X X O 정상
이메일 5 O X O O 스팸
이메일 6 X O X X 정상
이메일 7 X X X O 정상
이메일 8 X X O X 정상
이메일 9 O X X X 스팸
이메일 10 X O X O 정상

아래의 조건을 만족할 때 정상 메일일 확률을 구하시오. ( 분모와 분자에 1을 더한 라플라스 보정을 활용한다.)

 

새로운 이메일 조건:

  • 단어 '무료' 포함: X
  • 단어 '즉시' 포함: O
  • 링크 포함: O
  • 이미지 포함: X

정답 :

P(스팸) x P' (! 단어 '무료' 포함 | 스팸) x P'( 단어 '즉시' 포함 | 스팸) x P(링크 포함 | 스팸) x P(!이미지 포함 | 스팸) =

5/10 x 1/(5+4) x (2+1)/(5+4) x  (1+1)/(5+4) x (1+2)/(5+4) = 0.00137174211

반응형