Part 1a: Regression comparisons

2023-04-12 22:36:09 -05:00 · 2023-04-12 22:36:09 -05:00 · 93eb5d2f23
commit 93eb5d2f23
parent c2cd91b766
4 changed files with 84 additions and 14 deletions
--- a/Schrick-Noah_Homework-6.R
+++ b/Schrick-Noah_Homework-6.R
@ -1,8 +1,11 @@
-# Project 6 for the University of Tulsa's CS-7863 Sci-Stat Course
+# Homework 6 for the University of Tulsa's CS-7863 Sci-Stat Course
 # Penalized Machine Learning
 # Professor: Dr. McKinney, Spring 2023
 # Noah L. Schrick - 1492657
 if (!require("data.table")) install.packages("data.table")
 library(data.table)
 # 1. Penalized Regression and Classification
 ## a. Modified Ridge classification for LASSO penalties
 source("Schrick-Noah_Ridge-LASSO-Regression.R")
@ -10,27 +13,58 @@ source("Schrick-Noah_Ridge-LASSO-Regression.R")
 ### Use npdro simulated data to test
 source("Schrick-Noah_Simulated-Data.R")
 bundled_data <- create_data()
 # bundled_data$train.X = train.X
-lasso.df <- data.frame(att=c("intercept", colnames(train.X)), 
+### LASSO
 unpen_beta <- unpen_coeff(bundled_data$train.X, bundled_data$train.y)
 lasso.df <- data.frame(att=c("intercept", colnames(bundled_data$train.X)), 
                            scores=unpen_beta$betas,
                            abs_scores=abs(unpen_beta$betas))
-dplyr::slice_max(lasso.df,order_by=abs_scores,n=20)
+lasso.res <- dplyr::slice_max(lasso.df,order_by=abs_scores,n=20)
 lasso.table <- as.data.table(lasso.res)
 ### Compare with Ridge
 #### Find lambda
 tune_results <- tune_ridge(bundled_data$train.X, bundled_data$train.y, 
                           num_folds=10, 2^seq(-5,5,1), verbose=F)
 plot(log(tune_results$cv.table$hyp), tune_results$cv.table$means, type="l",
     xlab="lambda", ylab="CV Mean Loss")
 abline(v=tune_results$lam.min)
 tune_results$lam.min
 #### Use lam.min for Ridge Regression
 ridge_result <- ridge_betas(bundled_data$train.X, bundled_data$train.y,
                            beta_init = NULL, lam=tune_results$lam.min, method="BFGS")
 ridge.df <- data.frame(att=c("intercept", colnames(bundled_data$train.X)), 
                       scores=ridge_result$betas,
                       abs_scores=abs(ridge_result$betas))
 ridge.res <- dplyr::slice_max(ridge.df,order_by=abs_scores,n=20)
 ridge.table <- as.data.table(ridge.res)
 ### Compare with Random Forest
 source("Schrick-Noah_Random-Forest.R")
-rf_comp(train)
+rf_result <- rf_comp(bundled_data$train)
 rf.df <- data.frame(att=c(colnames(bundled_data$train.X)), 
                   scores=rf_result$rf2_imp$rf_score)
 rf_res <- dplyr::slice_max(rf.df,order_by=scores, n=20)
 rf.table <- as.data.table(rf_res)
 ### Compare with glmnet
 source("Schrick-Noah_glmnet.R")
 #### Alpha = 0
-glm_fcn(train.X, train.y, 0)
+glm.res.0 <- glm_fcn(bundled_data$train.X, bundled_data$train.y, 0)
 glm.df.0 <- data.frame(att=c("intercept", colnames(bundled_data$train.X)), 
                       scores=glm.res.0$lambda.1se,
                       abs_scores=glm.res.0$abs_scores)
 glm.df.0.res <- dplyr::slice_max(glm.df.0,order_by=abs_scores,n=20)
 glm.0.table <- as.data.table(glm.df.0.res)
 #### Alpha = 1
-glm_fcn(train.X, train.y, 1)
+glm.res.1 <- glm_fcn(bundled_data$train.X, bundled_data$train.y, 1) # alpha=1
 glm.df.1 <- data.frame(att=c("intercept", colnames(bundled_data$train.X)), 
                       scores=glm.res.1$lambda.1se,
                       abs_scores=glm.res.1$abs_scores)
 glm.df.1.res <- dplyr::slice_max(glm.df.1,order_by=abs_scores,n=20)
 glm.1.table <- as.data.table(glm.df.1.res)
 ## b. Repeat comparison using a graph with clusters
 if (!require("igraph")) install.packages("igraph")
--- a/Schrick-Noah_Random-Forest.R
+++ b/Schrick-Noah_Random-Forest.R
@ -10,7 +10,7 @@ rf_comp <- function(train){
  detach("package:ranger", unload=TRUE)
  rf_imp<-data.frame(rf_score=importance(rf, type=1)) # Cannot do if ranger is loaded
  #dplyr::arrange(rf_imp,-MeanDecreaseAccuracy) 
-  print(dplyr::slice_max(rf_imp,order_by=MeanDecreaseAccuracy, n=20))
+  #print(dplyr::slice_max(rf_imp,order_by=MeanDecreaseAccuracy, n=20))
  library(ranger)
  rf2<-ranger(as.factor(train$class) ~ ., data=train, num.trees=5000,
@ -18,8 +18,10 @@ rf_comp <- function(train){
  print(rf2)  # error
  rf2_imp<-data.frame(rf_score=rf2$variable.importance)
  #dplyr::arrange(rf_imp,-MeanDecreaseAccuracy) 
-  print(dplyr::slice_max(rf2_imp,order_by=rf_score, n=20))
+  #print(dplyr::slice_max(rf2_imp,order_by=rf_score, n=20))
  #rftest <- predict(rf, newdata=test, type="class")
  #confusionMatrix(table(rftest,test$class))  
-}
+  
  return(list(rf_imp=rf_imp, rf2_imp=rf2_imp))
 }
--- a/Schrick-Noah_Ridge-LASSO-Regression.R
+++ b/Schrick-Noah_Ridge-LASSO-Regression.R
@ -68,4 +68,37 @@ unpen_coeff <- function(X, y, lambda=0){
      beta <- beta+lambda
    }
  }
-}
+  return(unpen_beta)
 }
 if (!require("caret")) install.packages("caret")
 library(caret)
 tune_ridge <- function(X, y, num_folds, tune_grid, verbose=T){
  folds <- caret::createFolds(y, k = num_folds) 
  cv.results <- list()
  for (fold.id in seq(1,num_folds)){
    te.idx <- folds[[fold.id]]
    if (verbose){cat("fold", fold.id, "of",num_folds,"\n")}
    if(verbose){cat("\t inner loop over hyperparameters...\n")}
    # iterate over hyperparameter
    scores <- sapply(tune_grid,        # hyp loop var
                     function(lam){
                       # train beta's
                       btrain <- ridge_betas(X[-te.idx,], y[-te.idx], 
                                             beta_init = NULL, 
                                             lam=lam, method="BFGS")$betas
                       # get test loss with training beta's
                       penalized_loss(X[te.idx,], y[te.idx], btrain, lam=lam, alpha=0)
                     }
    )  # end sapply hyp loop over hyperparameters
    cv.results[[fold.id]] <- scores  # scores vector
  } # end for folds loop
  cv.results <- data.frame(cv.results)  # turn list to df
  cv.results$means <- rowMeans(as.matrix(cv.results))
  cv.results$hyp <- tune_grid
  colnames(cv.results) <- c(names(folds),"means","hyp")
  #### Select best performance
  best.idx <- which.min(cv.results$means)  # accuracy
  return(list(cv.table = cv.results, 
              lam.min = cv.results$hyp[best.idx]))
 }
--- a/Schrick-Noah_glmnet.R
+++ b/Schrick-Noah_glmnet.R
@ -14,5 +14,6 @@ glm_fcn <- function(train.X, train.y, alpha_p){
  glmnet.df <- data.frame(as.matrix(glmnet.class.coeffs))
  glmnet.df$abs_scores <- abs(glmnet.df$lambda.1se)
-  dplyr::slice_max(glmnet.df,order_by=abs_scores,n=21)
+  #dplyr::slice_max(glmnet.df,order_by=abs_scores,n=21)
-}
+  return(glmnet.df)
 }