Random Forest Jun 30, 2020 random forest는 Bagging을 이용한 ensemble 기법 중 하나다. 변수의 임의추출을 통해 ensemble의 다양성을 확보한다. 즉 Bootstrap Bagging과 변수 임의추출을 조합한 기법이다. tree개수가 많아 해석보다는 예측에 중점을 둔 기법이며, regression과 classification 모두 가능하다. ...
Neural Network May 27, 2020 진행하기에 앞서 데이터의 정보를 확인한다. data<-read.csv("data/nasa.csv") summary(data);str(data) ## Neo.Reference.ID Name Absolute.Magnitude Est.Dia.in.KM.min. ## Min. :2000433 Min. :2000433 Min. :11.16 Min. : 0.001011 ## 1st Qu.:3097594 1st Qu.:3097594 1st Qu.:20.10 1st Qu. ...
Decision Tree May 18, 2020 진행하기에 앞서 데이터의 정보를 확인한다. data<-read.csv("data/diabetes.csv") table(data$Outcome) ## ## 0 1 ## 500 268 summary(data);str(data) ## Pregnancies Glucose BloodPressure SkinThickness ## Min. : 0.000 Min. : 0.0 Min. : 0. ...
Step Model Apr 27, 2020 1 First divide the data into two pieces using 50:50 proportion: one for training and the other for test. (Use the last four digit of your ID as the seed number and use 50:50 proportion) ...
Linear Regression Apr 06, 2020 변수 검토 먼저 이후의 작업상의 편의를 위해 디렉토리를 지정, 패키지를 불러온다. names()로 변수명을 확인하고 추가적으로 str()나 summary()등을 이용해 전체 데이터에 대해 파악한다. library('readxl') ## Warning: 패키지 'readxl'는 R 버전 3. ...