반응형
K-NN 분류 연습 문제
다음과 같은 데이터 세트가 있다고 가정합니다. 새로운 데이터 포인트 (5, 5)를 분류하기 위해 K-NN 알고리즘을 사용합니다. K=3일 때, 새로운 데이터 포인트의 클래스를 예측하세요.
Index | X | Y | Class |
2 | 2 | 2 | B |
3 | 3 | 3 | B |
4 | 6 | 6 | A |
5 | 7 | 7 | B |
6 | 8 | 8 | D |
(5,5)와 가장 가까운 점 세 개는 (3,3,B),(6,6,A),(7,7,B)이다.
정답 : (5,5) 예측 클래스 :B
Naive Bayes
1. ( 라플라스 보정이 필요 없는 경우)
고 객 | 웹사이트 방문 여부 | 이메일 클릭 여부 | 장바구니 추가 여부 | 이전 구매 여부 | 구매 |
고객 1 | O | X | O | X | 구매 |
고객 2 | X | O | X | O | 미구매 |
고객 3 | X | O | O | X | 구매 |
고객 4 | O | X | X | O | 미구매 |
고객 5 | X | O | X | X | 구매 |
고객 6 | O | X | O | O | 미구매 |
고객 7 | X | O | O | O | 구매 |
고객 8 | X | X | O | X | 미구매 |
고객 9 | O | O | X | O | 구매 |
고객 10 | X | X | X | X | 미구매 |
아래의 조건을 만족 했을 때 고객이 상품을 구매했을 확률을 구하시오.
- 웹사이트 방문 여부: X
- 이메일 클릭 여부: O
- 장바구니 추가 여부: O
- 이전 구매 여부: X
정답:
P(고객이 상품 구매 했을 확률)xP( !웹사이트 방문 | 고객이 상품 구매) x P( 이메일 클릭| 고객이 상품 구매) x P(장바구니 추가| 고객이 상품 구매)xP( !이전 구매 | 고객이 상품 구매) = 5/10 x 3/5 x 4/5 x 3/5 x 3/5 =0.0864
2. ( 라플라스 보정이 필요한 경우)
메일 | 단어 '무료' 포함 | 단어 '즉시' 포함 | 링크 포함 | 이미지 포함 | 스팸 |
이메일 1 | O | X | O | X | 스팸 |
이메일 2 | X | O | X | O | 스팸 |
이메일 3 | O | O | O | X | 스팸 |
이메일 4 | X | X | X | O | 정상 |
이메일 5 | O | X | O | O | 스팸 |
이메일 6 | X | O | X | X | 정상 |
이메일 7 | X | X | X | O | 정상 |
이메일 8 | X | X | O | X | 정상 |
이메일 9 | O | X | X | X | 스팸 |
이메일 10 | X | O | X | O | 정상 |
아래의 조건을 만족할 때 정상 메일일 확률을 구하시오. ( 분모와 분자에 1을 더한 라플라스 보정을 활용한다.)
새로운 이메일 조건:
- 단어 '무료' 포함: X
- 단어 '즉시' 포함: O
- 링크 포함: O
- 이미지 포함: X
정답 :
P(스팸) x P' (! 단어 '무료' 포함 | 스팸) x P'( 단어 '즉시' 포함 | 스팸) x P(링크 포함 | 스팸) x P(!이미지 포함 | 스팸) =
5/10 x 1/(5+4) x (2+1)/(5+4) x (1+1)/(5+4) x (1+2)/(5+4) = 0.00137174211
반응형
'Data Science' 카테고리의 다른 글
선형회귀를 이용한 예측과 그 응용 (0) | 2024.04.18 |
---|---|
공공 데이터 품질 관리와 오류율 (0) | 2024.04.17 |
OpenApi와 공공데이터에 대한 이해 (0) | 2024.04.17 |