Part B and Part C

2022-09-30 11:57:41 -05:00 · 2022-09-30 11:57:41 -05:00 · 176c0d831f
commit 176c0d831f
parent 60500b5428
4 changed files with 565 additions and 2 deletions
--- a/.Rhistory
+++ b/.Rhistory
@ -0,0 +1,512 @@
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.breaks[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1,2)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.breaks[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1,2,3)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.breaks[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.breaks[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+#g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.breaks <- g.hist$breaks # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.breaks[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.probs[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean)/kmin)
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+alpha.LM
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.probs[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1, lwd=5)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.probs[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1, lwd=3)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.probs[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4)
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1, lwd=3)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2, lwd=3)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.probs[nz.probs.mask]
+#plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3, lwd=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4, lwd=3)
+plot(yeast)
+hist(yeast)
+hist(g.vec)
+g.pois
+g.mean
+alpha.LM
+alpha.ML
+degree(g)
+sort(degree(g))
+sort(degree(g),decreasing=FALSE)
+sort(degree(g),decreasing=F)
+sort(degree(g),decreasing=false)
+sort(degree(g), decreasing = TRUE)
+head(sort(degree(g), decreasing = TRUE))
+stddev(degree(g))
+sd(degree(g))
+tail(sort(degree(g), decreasing = TRUE))
+plot(log(g.breaks.clean), log(g.probs.clean))
+# Homework 4 for the University of Tulsa' s CS-7863 Network Theory Course
+# Degree Distribution
+# Professor: Dr. McKinney, Spring 2022
+# Noah Schrick - 1492657
+library(igraph)
+library(igraphdata)
+data(yeast)
+g <- yeast
+g.netname <- "Yeast"
+################# Set up Work #################
+g.vec <- degree(g)
+g.hist <- hist(g.vec, freq=FALSE, main=paste("Histogram of the", g.netname,
+" Network"))
+legend("topright", c("Guess", "Poisson", "Least-Squares Fit",
+"Max Log-Likelihood"), lty=c(1,2,3,4), col=c("#40B0A6",
+"#006CD1", "#E66100", "#D35FB7"))
+g.mean <- mean(g.vec)
+g.seq <- 0:max(g.vec) # x-axis
+################# Guessing Alpha #################
+alpha.guess <- 1.5
+lines(g.seq, g.seq^(-alpha.guess), col="#40B0A6", lty=1, lwd=3)
+################# Poisson #################
+g.pois <- dpois(g.seq, g.mean, log=F)
+lines(g.seq, g.pois, col="#006CD1", lty=2, lwd=3)
+################# Linear model: Least-Squares Fit #################
+g.breaks <- g.hist$breaks[-c(1)] # remove 0
+g.probs <- g.hist$density[-1] # make lengths match
+# Need to clean up probabilities that are 0
+nz.probs.mask <- g.probs!=0
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.probs[nz.probs.mask]
+plot(log(g.breaks.clean), log(g.probs.clean))
+g.fit <- lm(log(g.probs.clean)~log(g.breaks.clean))
+summary(g.fit)
+alpha.LM <- coef(g.fit)[2]
+lines(g.seq, g.seq^(-alpha.LM), col="#E66100", lty=3, lwd=3)
+################# Max-Log-Likelihood #################
+n <- length(g.breaks.clean)
+kmin <- g.breaks.clean[1]
+alpha.ML <- 1 + n/sum(log(g.breaks.clean/kmin))
+alpha.ML
+lines(g.seq, g.seq^(-alpha.ML), col="#D35FB7", lty=4, lwd=3)
+plot(log(g.breaks.clean), log(g.probs.clean))
+g.breaks.clean <- g.breaks[nz.probs.mask]
+g.probs.clean <- g.probs[nz.probs.mask]
+plot(log(g.breaks.clean), log(g.probs.clean))
+## Set Working Directory to file directory - RStudio approach
+setwd(dirname(rstudioapi::getActiveDocumentContext()$path))
+#### Part A: Preparing Data
+load("sense.filtered.cpm.Rdata")
+# load phenotype (mdd/hc) data
+subject.attrs <- read.csv("Demographic_symptom.csv",
+stringsAsFactors = FALSE)
+if (!require("dplyr")) install.packages("dplyr")
+library(dplyr)
+# grab intersecting X (subject ids) and Diag (Diagnosis) from columns
+phenos.df <- subject.attrs %>%
+filter(X %in% colnames(sense.filtered.cpm)) %>%
+dplyr::select(X, Diag)
+mddPheno <- as.factor(phenos.df$Diag)
+# Normalized and transform
+library(preprocessCore)
+mddExprData_quantile <- normalize.quantiles(sense.filtered.cpm)
+mddExprData_quantileLog2 <- log2(mddExprData_quantile)
+# attach phenotype names and gene names to data
+colnames(mddExprData_quantileLog2) <- mddPheno
+rownames(mddExprData_quantileLog2) <- rownames(sense.filtered.cpm)
+rownames(sense.filtered.cpm)
+len(rownames(sense.filtered.cpm))
+length(rownames(sense.filtered.cpm))
+length(rownames(sense.filtered.cpm))
--- a/.~lock.Schrick-Noah_CS-6643_Lab-4.docx#
+++ b/.~lock.Schrick-Noah_CS-6643_Lab-4.docx#
@ -1 +1 @@
-,noah,NovaArchSys,29.09.2022 14:42,file:///home/noah/.config/libreoffice/4;
+,noah,NovaArchSys,30.09.2022 11:57,file:///home/noah/.config/libreoffice/4;
--- a/Schrick-Noah_CS-6643_Lab-4.R
+++ b/Schrick-Noah_CS-6643_Lab-4.R
@ -21,6 +21,7 @@ phenos.df <- subject.attrs %>%
 mddPheno <- as.factor(phenos.df$Diag)  

 # Normalized and transform
+if (!require("preprocessCore")) install.packages("preprocessCore")
 library(preprocessCore)
 mddExprData_quantile <- normalize.quantiles(sense.filtered.cpm)
 mddExprData_quantileLog2 <- log2(mddExprData_quantile)
@ -29,4 +30,54 @@ colnames(mddExprData_quantileLog2) <- mddPheno
 rownames(mddExprData_quantileLog2) <- rownames(sense.filtered.cpm)

 length(rownames(sense.filtered.cpm))
-#### Part B: Filter noise genes
+
+
+#### Part B: Filter noise genes
+# coefficient of variation filter sd(x)/abs(mean(x))
+CoV_values <- apply(mddExprData_quantileLog2,1,
+                    function(x) {sd(x)/abs(mean(x))})
+# smaller threshold, the higher the experimental effect relative to the 
+# measurement precision
+sum(CoV_values<.045)
+# there is one gene that has 0 variation -- remove
+sd_values <- apply(mddExprData_quantileLog2,1, function(x) {sd(x)})
+rownames(mddExprData_quantileLog2)[sd_values==0]  
+# filter the data matrix 
+GxS.covfilter <- mddExprData_quantileLog2[CoV_values<.045 & sd_values>0,]
+dim(GxS.covfilter)
+
+
+#### Part C: Differential Expression with t-tests
+# convert phenotype
+pheno.factor <- as.factor(colnames(GxS.covfilter))
+pheno.factor
+str(pheno.factor)
+levels(pheno.factor)
+
+## Run t-tests
+myrow <- 2  # first pick a gene row index to test
+mygene<-rownames(GxS.covfilter)[myrow]
+mygene
+
+# a. traditional R interface 
+mdd <- GxS.covfilter[myrow,pheno.factor=="MDD"]
+hc <- GxS.covfilter[myrow,pheno.factor=="HC"]
+t.result <- t.test(mdd,hc)
+t.result  
+
+# b. formula interface ~ saves a step
+t.result <- t.test(GxS.covfilter[myrow,] ~ pheno.factor)
+t.result
+p <- t.result$p.value
+t.result$statistic
+
+## Plot the Data
+if (!require("ggplot2")) install.packages("ggplot2")
+library(ggplot2)
+# create data frame for gene
+mygene.data.df <- data.frame(gene=GxS.covfilter[myrow,],phenotype=pheno.factor)
+# boxplot
+p <- ggplot(mygene.data.df, aes(x=phenotype, y=gene, fill=phenotype)) +
+          stat_boxplot(geom ='errorbar') + geom_boxplot()
+p <- p + xlab("MDD versus HC") + ylab(mygene)
+p
--- a/Schrick-Noah_CS-6643_Lab-4.docx
+++ b/Schrick-Noah_CS-6643_Lab-4.docx