본문 바로가기

knn

(2)
[데이터분석기사 실기] 예시문제 풀이 - 최근접 이웃 알고리즘(Knn) - 작업 2유형 1. 기본 전처리 과정입니다. ################################################################################ rm(list=ls()) library(dplyr) library(knitr) library(ggplot2) setwd(".../data") x.train % head(5) # 트레이닝 셋 x.train %>% dim() y.train %>% dim() # 테스트 셋 x.test %>% dim() # 학습할 데이터셋 병합 train % head(5) # 결측값 처리 train$환불금액[is.na(train$환불금액)== TRUE] = 0 x.test$환불금액[is.na(x.test$환불금액)== TRUE] = 0 # 범주형변수 fa..
분류 모델(Logistic, LDA, QDA, KNN) 및 혼동행렬(Confusion Matrix)로 모델 평가 이번 공부 내용은 시간이 부족해서 책보고 따라하는 것으로 공부를 마쳤습니다. ​ 코드는 보고 따라할 수 있지만, 각 모델들에 대해 수학적인 이론과 어떻게 분류가 돌아가는지 파악하는데 많은 어려움이 있었음. 기존 라이브러리에 있는 쉬운 데이터로 사용해서 결과가 잘 나왔지만 실제 데이터를 분석하면서 책에서 나온대로 적용하는 것이 매우 어려웠음. 학부시절 기계학습 수업 들었을때 공부했던 내용을 다시 복습했습니다. ​ 데이터 설명 ​ 2001년 초부터 2005년 말까지 1,250일 동안 S&P 500 주가지수에 대한 수익률로 구성 각 날짜에 대해 이전 거래일(5일)에 대한 수익률(Lag1 ~ Lag5) 또한 Volume(전일 거래된 주식 수, 수십억 달러), Today(해당 날짜의 수익률), Direction(..