선형회귀를 이용한 예측과 그 응용

[본글은 고려대학교 정보대학 유용재 교수님 COSE 471 데이터과학 수강중 중간고사 정리를 위해 작성하는 글임을 밝힙니다.]

상관 계수와 상관분석의 기초

Pearson Correlation Coefficient

두 변수 사이에 존재하는 선형적인 상관관계를 수치로 나타낸 것
크기는 -1 에서 1 사이. 0일 경우 상관관계가 없음

주의 사항

선형적인 상관관계만을 드러낸다
큰 상관 계수가 인과관계를 보장하는 것은 아니다
상관 계수와 기울기를 혼동 해서는 안된다.

Spearman Correlation Coefficient

값이 아닌 순위 기반으로 상관계수를 도출함

Kendall tau Correlation Coefficient

값이 아닌 순위 기반으로 상관계수를 도출한다는 점은 동일함
((concordant 순서쌍) - (discordant 순서쌍)) / 전체 데이터가 가질 수 있는 순서쌍
- 순서쌍에서 두 변수간의 대소관계가 동일하면 concordant하다고 한다.

상관 계수와 상관분석의 기초

선형회귀의 목적: Mean Squared Error (평균 제곱오차)를 최소화 하는 것

MSE: ((290-250)^2 + (190-210)^2 + (250 - 200)^2 )/3 =1500

선형회귀 구현을 위한 라이브러리

import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split // training data, validation data로 나눠주는 라이브러리
from sklearn.linear_model import LinearRegression // 선형회귀를 위한 라이브러리

df= pd.read_csv('score.csv')

df_x=df[['1st','2nd','3rd','6mo','9mo']]
df_y=df['suneung']

x_train,x_valid,y_train,y_valid = train_test_split(df_x,df_y,random_state=0,test_size=0.2)

reg =LinearRegression()

reg.fit(x_train,y_train)

print(reg.coef_) // 계수 출력
print(reg.intercept_) // 절편 출력

y_pred=reg.predict(x_valid) // x_valid에 대한 예측 결과 값 계산

K-Fold

데이터가 적을 때 사용 하는 방법으로 데이터를 K개로 나눈후, K-1개는 train data, 1개는 valid data로 실행을 한다.

'Data Science' 카테고리의 다른 글

KNN,Naive Bayes, Laplacian Correction 연습 문제 모음 (1)	2024.06.09
공공 데이터 품질 관리와 오류율 (0)	2024.04.17
OpenApi와 공공데이터에 대한 이해 (0)	2024.04.17

탱탱구리 개발일지

선형회귀를 이용한 예측과 그 응용

상관 계수와 상관분석의 기초

Pearson Correlation Coefficient

Spearman Correlation Coefficient

Kendall tau Correlation Coefficient

상관 계수와 상관분석의 기초

선형회귀 구현을 위한 라이브러리

K-Fold

'Data Science' 카테고리의 다른 글

티스토리툴바

선형회귀를 이용한 예측과 그 응용

상관 계수와 상관분석의 기초

Pearson Correlation Coefficient

Spearman Correlation Coefficient

Kendall tau Correlation Coefficient

상관 계수와 상관분석의 기초

선형회귀 구현을 위한 라이브러리

K-Fold

'Data Science' 카테고리의 다른 글

'Data Science' Related Articles

티스토리툴바