Part B and Part C

2022-09-30 11:57:41 -05:00 · 2022-09-30 11:57:41 -05:00 · 176c0d831f
commit 176c0d831f
parent 60500b5428
4 changed files with 565 additions and 2 deletions
--- a/.Rhistory
+++ b/.Rhistory
@ -0,0 +1,512 @@
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.breaks[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1,2)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.breaks[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1,2,3)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.breaks[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.breaks[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 #g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.breaks <- g.hist$breaks # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.breaks[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.probs[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 alpha.LM
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.probs[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1, lwd=5)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.probs[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1, lwd=3)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.probs[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1, lwd=3)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2, lwd=3)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.probs[nz.probs.mask]
 #plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3, lwd=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4, lwd=3)
 plot(yeast)
 hist(yeast)
 hist(g.vec)
 g.pois
 g.mean
 alpha.LM
 alpha.ML
 degree(g)
 sort(degree(g))
 sort(degree(g),decreasing=FALSE)
 sort(degree(g),decreasing=F)
 sort(degree(g),decreasing=false)
 sort(degree(g), decreasing = TRUE)
 head(sort(degree(g), decreasing = TRUE))
 stddev(degree(g))
 sd(degree(g))
 tail(sort(degree(g), decreasing = TRUE))
 plot(log(g.breaks.clean), log(g.probs.clean))
 # Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
 # Degree Distribution
 # Professor: Dr. McKinney, Spring 2022
 # Noah Schrick - 1492657
 library(igraph)
 library(igraphdata)
 data(yeast)
 g <- yeast
 g.netname <- "Yeast"
 ################# Set up Work #################
 g.vec <- degree(g)
 g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
 " Network"))
 legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
 "Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
 "#006CD1", "#E66100", "#D35FB7"))
 g.mean <- mean(g.vec)
 g.seq <- 0:max(g.vec) # x-axis
 ################# Guessing Alpha #################
 alpha.guess <- 1.5
 lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1, lwd=3)
 ################# Poisson #################
 g.pois <- dpois(g.seq, g.mean, log=F)
 lines(g.seq, g.pois, col="#006CD1", lty=2, lwd=3)
 ################# Linear model: Least-Squares Fit #################
 g.breaks <- g.hist$breaks[-c(1)] # remove 0
 g.probs <- g.hist$density[-1] # make lengths match
 # Need to clean up probabilities that are 0
 nz.probs.mask <- g.probs!=0
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.probs[nz.probs.mask]
 plot(log(g.breaks.clean), log(g.probs.clean))
 g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
 summary(g.fit)
 alpha.LM <- coef(g.fit)[2]
 lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3, lwd=3)
 ################# Max-Log-Likelihood #################
 n <- length(g.breaks.clean)
 kmin <- g.breaks.clean[1]
 alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
 alpha.ML
 lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4, lwd=3)
 plot(log(g.breaks.clean), log(g.probs.clean))
 g.breaks.clean <- g.breaks[nz.probs.mask]
 g.probs.clean <- g.probs[nz.probs.mask]
 plot(log(g.breaks.clean), log(g.probs.clean))
 ## Set Working Directory to file directory - RStudio approach
 setwd(dirname(rstudioapi::getActiveDocumentContext()$path))
 #### Part A: Preparing Data
 load("sense.filtered.cpm.Rdata")
 # load phenotype (mdd/hc) data
 subject.attrs <- read.csv("Demographic_symptom.csv",
 stringsAsFactors = FALSE)
 if (!require("dplyr")) install.packages("dplyr")
 library(dplyr)
 # grab intersecting X (subject ids) and Diag (Diagnosis) from columns
 phenos.df <- subject.attrs %>%
 filter(X %in% colnames(sense.filtered.cpm)) %>%
 dplyr::select(X, Diag)
 mddPheno <- as.factor(phenos.df$Diag)
 # Normalized and transform
 library(preprocessCore)
 mddExprData_quantile <- normalize.quantiles(sense.filtered.cpm)
 mddExprData_quantileLog2 <- log2(mddExprData_quantile)
 # attach phenotype names and gene names to data
 colnames(mddExprData_quantileLog2) <- mddPheno
 rownames(mddExprData_quantileLog2) <- rownames(sense.filtered.cpm)
 rownames(sense.filtered.cpm)
 len(rownames(sense.filtered.cpm))
 length(rownames(sense.filtered.cpm))
 length(rownames(sense.filtered.cpm))
--- a/.~lock.Schrick-Noah_CS-6643_Lab-4.docx#
+++ b/.~lock.Schrick-Noah_CS-6643_Lab-4.docx#
@ -1 +1 @@
-,noah,NovaArchSys,29.09.2022 14:42,file:///home/noah/.config/libreoffice/4;
+,noah,NovaArchSys,30.09.2022 11:57,file:///home/noah/.config/libreoffice/4;
--- a/Schrick-Noah_CS-6643_Lab-4.R
+++ b/Schrick-Noah_CS-6643_Lab-4.R
@ -21,6 +21,7 @@ phenos.df <- subject.attrs %>%
 mddPheno <- as.factor(phenos.df$Diag)  
 # Normalized and transform
 if (!require("preprocessCore")) install.packages("preprocessCore")
 library(preprocessCore)
 mddExprData_quantile <- normalize.quantiles(sense.filtered.cpm)
 mddExprData_quantileLog2 <- log2(mddExprData_quantile)
@ -29,4 +30,54 @@ colnames(mddExprData_quantileLog2) <- mddPheno
 rownames(mddExprData_quantileLog2) <- rownames(sense.filtered.cpm)
 length(rownames(sense.filtered.cpm))
 #### Part B: Filter noise genes
 # coefficient of variation filter sd(x)/abs(mean(x))
 CoV_values <- apply(mddExprData_quantileLog2,1,
                    function(x) {sd(x)/abs(mean(x))})
 # smaller threshold, the higher the experimental effect relative to the 
 # measurement precision
 sum(CoV_values<.045)
 # there is one gene that has 0 variation -- remove
 sd_values <- apply(mddExprData_quantileLog2,1, function(x) {sd(x)})
 rownames(mddExprData_quantileLog2)[sd_values==0]  
 # filter the data matrix 
 GxS.covfilter <- mddExprData_quantileLog2[CoV_values<.045 & sd_values>0,]
 dim(GxS.covfilter)
 #### Part C: Differential Expression with t-tests
 # convert phenotype
 pheno.factor <- as.factor(colnames(GxS.covfilter))
 pheno.factor
 str(pheno.factor)
 levels(pheno.factor)
 ## Run t-tests
 myrow <- 2  # first pick a gene row index to test
 mygene<-rownames(GxS.covfilter)[myrow]
 mygene
 # a. traditional R interface 
 mdd <- GxS.covfilter[myrow,pheno.factor=="MDD"]
 hc <- GxS.covfilter[myrow,pheno.factor=="HC"]
 t.result <- t.test(mdd,hc)
 t.result  
 # b. formula interface ~ saves a step
 t.result <- t.test(GxS.covfilter[myrow,] ~ pheno.factor)
 t.result
 p <- t.result$p.value
 t.result$statistic
 ## Plot the Data
 if (!require("ggplot2")) install.packages("ggplot2")
 library(ggplot2)
 # create data frame for gene
 mygene.data.df <- data.frame(gene=GxS.covfilter[myrow,],phenotype=pheno.factor)
 # boxplot
 p <- ggplot(mygene.data.df, aes(x=phenotype, y=gene, fill=phenotype)) +
          stat_boxplot(geom ='errorbar') + geom_boxplot()
 p <- p + xlab("MDD versus HC") + ylab(mygene)
 p
--- a/Schrick-Noah_CS-6643_Lab-4.docx
+++ b/Schrick-Noah_CS-6643_Lab-4.docx
		`@ -1 +1 @@`
			`,noah,NovaArchSys,29.09.2022 14:42,file:///home/noah/.config/libreoffice/4;`				`,noah,NovaArchSys,30.09.2022 11:57,file:///home/noah/.config/libreoffice/4;`