Identifying the input files

The sequencing reads were quantified using the salmon tool (out of the scope of this course). The output of this tool is kept in the salmon_quant directory of the course data folder.

We have to use the list.files function to locate all the files. It can be run in “recursive” mode means that it checks all sub-folders.

## see help for list.files
## recursive checks all sub-folders
## full.names returns the path in addition to the file name

## dirs contain all the sample names
dirs <- list.files("salmon_quant/")
quant_files <- list.files("salmon_quant/",pattern="quant.sf.gz",recursive = TRUE,full.names = TRUE)

## Set nicer names
names(quant_files) <- dirs
quant_files

                             1_CTR_BC_2 
 "salmon_quant//1_CTR_BC_2/quant.sf.gz" 
                             2_TGF_BC_4 
 "salmon_quant//2_TGF_BC_4/quant.sf.gz" 
                              3_IR_BC_5 
  "salmon_quant//3_IR_BC_5/quant.sf.gz" 
                             4_CTR_BC_6 
 "salmon_quant//4_CTR_BC_6/quant.sf.gz" 
                             5_TGF_BC_7 
 "salmon_quant//5_TGF_BC_7/quant.sf.gz" 
                             6_IR_BC_12 
 "salmon_quant//6_IR_BC_12/quant.sf.gz" 
                            7_CTR_BC_13 
"salmon_quant//7_CTR_BC_13/quant.sf.gz" 
                            8_TGF_BC_14 
"salmon_quant//8_TGF_BC_14/quant.sf.gz" 
                             9_IR_BC_15 
 "salmon_quant//9_IR_BC_15/quant.sf.gz"

Importing the files

Two further files are required. 1) the transcript to gene mapping (created previously to save time). 2) the sample information

library(readr)
tx2gene <- read_csv("tx2gene.csv")


-- Column specification -----------------------------------------------
cols(
  ENST00000456328 = col_character(),
  ENSG00000223972 = col_character()
)

sampleinfo <- read.csv("meta_data/sampleInfo.csv")

The tximport package is first required to import the quantification files, and summarise them to the gene level.

library(tximport)

# ignoreTxVersion is required to make sure the transcript names match up

txi <- tximport(quant_files,type="salmon",tx2gene = tx2gene,ignoreTxVersion = TRUE)

reading in files with read_tsv
1 2 3 4 5 6 7 8 9 
transcripts missing from tx2gene: 1
summarizing abundance
summarizing counts
summarizing length

We can now read these data into DESeq2. It has many possible input formats each of which requires a different function. One of the arguments is a data frame containing sample information. The design specifies which contrast we want to analyse in R’s modeling format (using the ~ symbol). In the simplest case the design argument can correspond to a column in the sample information that we want to compare.

library(DESeq2)
dds <- DESeqDataSetFromTximport(txi, 
                                colData = sampleinfo,
                                design = ~condition)

some variables in design formula are characters, converting to factors

dds

class: DESeqDataSet 
dim: 57914 9 
metadata(1): version
assays(2): counts avgTxLength
rownames(57914): ENSG00000000003 ENSG00000000005 ...
  ENSG00000284747 ENSG00000284748
rowData names(0):
colnames(9): 1_CTR_BC_2 2_TGF_BC_4 ... 8_TGF_BC_14 9_IR_BC_15
colData names(5): Run condition Name Replicate Treated

It is useful to check the number of reads obtained for each sample. Low read count could indicate technical issues such as poor RNA quality. The number of reads for each sample can be obtained by summing each column in the assay(dds) data frame. These can be plotted as a bar graph.

library(dplyr)
library(ggplot2)
png("images/lib_size.png")
mutate(sampleinfo, LibSize = colSums(assay(dds))/1e6) %>% 
  ggplot(aes(x = Name, y = LibSize)) + geom_col(fill="steelblue") + geom_hline(yintercept = 20,col="red",lty=2)

PCA exercise

Colouring by condition reveals some inconsistencies in encoding

library(dplyr)
library(ggplot2)
pca_data <- plotPCA(vsd,intgroup="Treated",returnData = TRUE) %>% 
  dplyr::rename(Run = name) %>% 
  left_join(sampleinfo)

Joining, by = c("Treated", "Run")

  ggplot(pca_data,aes(x = PC1, y = PC2,col=condition)) + geom_point()

Adding labels to the plot with geom_text

Nicer positioning of the labels is possible with the ggrepel package.

library(ggrepel)
pca_data <- plotPCA(vsd,intgroup="Treated",returnData = TRUE) %>% 
  dplyr::rename(Run = name) %>% 
  left_join(sampleinfo)

Joining, by = c("Treated", "Run")

  ggplot(pca_data,aes(x = PC1, y = PC2,col=group,label = Name)) + geom_point() + geom_text_repel()

Repeat analysis with new sample sheet

After identifying a sample swap, we correct the sample sheet and start the data import again. Only the data frame containing the sample information needs to change.

sampleinfo_corrected <- read_tsv("meta_data/sampleInfo_corrected.txt")


-- Column specification -----------------------------------------------
cols(
  Run = col_character(),
  condition = col_character(),
  Name = col_character(),
  Replicate = col_double(),
  Treated = col_character()
)

dds <- DESeqDataSetFromTximport(txi, 
                                colData = sampleinfo_corrected,
                                design = ~condition)

some variables in design formula are characters, converting to factorsusing counts and average transcript lengths from tximport

dds

class: DESeqDataSet 
dim: 57914 9 
metadata(1): version
assays(2): counts avgTxLength
rownames(57914): ENSG00000000003 ENSG00000000005 ...
  ENSG00000284747 ENSG00000284748
rowData names(0):
colnames(9): 1_CTR_BC_2 2_TGF_BC_4 ... 8_TGF_BC_14 9_IR_BC_15
colData names(5): Run condition Name Replicate Treated

Verify sample groups are correct

The PCA plot can be used to verify the new sample groups. A clear separation is seen on the first component between basal and luminal samples (as we would expect).

vsd <- vst(dds)

using 'avgTxLength' from assays(dds), correcting for library size

plotPCA(vsd,intgroup="condition")

sessionInfo()

LS0tDQp0aXRsZTogIlNlc3Npb24gMSBTb2x1dGlvbnMiDQpvdXRwdXQ6DQogIGh0bWxfbm90ZWJvb2s6IGRlZmF1bHQNCi0tLQ0KDQojIElkZW50aWZ5aW5nIHRoZSBpbnB1dCBmaWxlcw0KDQpUaGUgc2VxdWVuY2luZyByZWFkcyB3ZXJlIHF1YW50aWZpZWQgdXNpbmcgdGhlIHNhbG1vbiB0b29sIChvdXQgb2YgdGhlIHNjb3BlIG9mIHRoaXMgY291cnNlKS4gVGhlIG91dHB1dCBvZiB0aGlzIHRvb2wgaXMga2VwdCBpbiB0aGUgYHNhbG1vbl9xdWFudGAgZGlyZWN0b3J5IG9mIHRoZSBjb3Vyc2UgZGF0YSBmb2xkZXIuDQoNCldlIGhhdmUgdG8gdXNlIHRoZSBgbGlzdC5maWxlc2AgZnVuY3Rpb24gdG8gbG9jYXRlIGFsbCB0aGUgZmlsZXMuIEl0IGNhbiBiZSBydW4gaW4gInJlY3Vyc2l2ZSIgbW9kZSBtZWFucyB0aGF0IGl0IGNoZWNrcyBhbGwgc3ViLWZvbGRlcnMuDQoNCmBgYHtyfQ0KIyMgc2VlIGhlbHAgZm9yIGxpc3QuZmlsZXMNCiMjIHJlY3Vyc2l2ZSBjaGVja3MgYWxsIHN1Yi1mb2xkZXJzDQojIyBmdWxsLm5hbWVzIHJldHVybnMgdGhlIHBhdGggaW4gYWRkaXRpb24gdG8gdGhlIGZpbGUgbmFtZQ0KDQojIyBkaXJzIGNvbnRhaW4gYWxsIHRoZSBzYW1wbGUgbmFtZXMNCmRpcnMgPC0gbGlzdC5maWxlcygic2FsbW9uX3F1YW50LyIpDQpxdWFudF9maWxlcyA8LSBsaXN0LmZpbGVzKCJzYWxtb25fcXVhbnQvIixwYXR0ZXJuPSJxdWFudC5zZi5neiIscmVjdXJzaXZlID0gVFJVRSxmdWxsLm5hbWVzID0gVFJVRSkNCg0KIyMgU2V0IG5pY2VyIG5hbWVzDQpuYW1lcyhxdWFudF9maWxlcykgPC0gZGlycw0KcXVhbnRfZmlsZXMNCmBgYA0KDQojIEltcG9ydGluZyB0aGUgZmlsZXMNCg0KVHdvIGZ1cnRoZXIgZmlsZXMgYXJlIHJlcXVpcmVkLiAxKSB0aGUgdHJhbnNjcmlwdCB0byBnZW5lIG1hcHBpbmcgKGNyZWF0ZWQgcHJldmlvdXNseSB0byBzYXZlIHRpbWUpLiAyKSB0aGUgc2FtcGxlIGluZm9ybWF0aW9uDQoNCmBgYHtyfQ0KbGlicmFyeShyZWFkcikNCnR4MmdlbmUgPC0gcmVhZF9jc3YoInR4MmdlbmUuY3N2IikNCnNhbXBsZWluZm8gPC0gcmVhZC5jc3YoIm1ldGFfZGF0YS9zYW1wbGVJbmZvLmNzdiIpDQpgYGANCg0KVGhlIGB0eGltcG9ydGAgcGFja2FnZSBpcyBmaXJzdCByZXF1aXJlZCB0byBpbXBvcnQgdGhlIHF1YW50aWZpY2F0aW9uIGZpbGVzLCBhbmQgc3VtbWFyaXNlIHRoZW0gdG8gdGhlIGdlbmUgbGV2ZWwuDQoNCmBgYHtyfQ0KbGlicmFyeSh0eGltcG9ydCkNCg0KIyBpZ25vcmVUeFZlcnNpb24gaXMgcmVxdWlyZWQgdG8gbWFrZSBzdXJlIHRoZSB0cmFuc2NyaXB0IG5hbWVzIG1hdGNoIHVwDQoNCnR4aSA8LSB0eGltcG9ydChxdWFudF9maWxlcyx0eXBlPSJzYWxtb24iLHR4MmdlbmUgPSB0eDJnZW5lLGlnbm9yZVR4VmVyc2lvbiA9IFRSVUUpDQpgYGANCg0KV2UgY2FuIG5vdyByZWFkIHRoZXNlIGRhdGEgaW50byBgREVTZXEyYC4gSXQgaGFzIG1hbnkgcG9zc2libGUgaW5wdXQgZm9ybWF0cyBlYWNoIG9mIHdoaWNoIHJlcXVpcmVzIGEgZGlmZmVyZW50IGZ1bmN0aW9uLiBPbmUgb2YgdGhlIGFyZ3VtZW50cyBpcyBhIGRhdGEgZnJhbWUgY29udGFpbmluZyBzYW1wbGUgaW5mb3JtYXRpb24uIFRoZSBkZXNpZ24gc3BlY2lmaWVzIHdoaWNoIGNvbnRyYXN0IHdlIHdhbnQgdG8gYW5hbHlzZSBpbiBSJ3MgbW9kZWxpbmcgZm9ybWF0ICh1c2luZyB0aGUgYH5gIHN5bWJvbCkuIEluIHRoZSBzaW1wbGVzdCBjYXNlIHRoZSBkZXNpZ24gYXJndW1lbnQgY2FuIGNvcnJlc3BvbmQgdG8gYSBjb2x1bW4gaW4gdGhlIHNhbXBsZSBpbmZvcm1hdGlvbiB0aGF0IHdlIHdhbnQgdG8gY29tcGFyZS4NCg0KYGBge3IgbWVzc2FnZT1GQUxTRX0NCmxpYnJhcnkoREVTZXEyKQ0KZGRzIDwtIERFU2VxRGF0YVNldEZyb21UeGltcG9ydCh0eGksIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBjb2xEYXRhID0gc2FtcGxlaW5mbywNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgZGVzaWduID0gflRyZWF0ZWQpDQpkZHMNCmBgYA0KDQoNCkl0IGlzIHVzZWZ1bCB0byBjaGVjayB0aGUgbnVtYmVyIG9mIHJlYWRzIG9idGFpbmVkIGZvciBlYWNoIHNhbXBsZS4gTG93IHJlYWQgY291bnQgY291bGQgaW5kaWNhdGUgdGVjaG5pY2FsIGlzc3VlcyBzdWNoIGFzIHBvb3IgUk5BIHF1YWxpdHkuIFRoZSBudW1iZXIgb2YgcmVhZHMgZm9yIGVhY2ggc2FtcGxlIGNhbiBiZSBvYnRhaW5lZCBieSBzdW1taW5nIGVhY2ggY29sdW1uIGluIHRoZSBgYXNzYXkoZGRzKWAgZGF0YSBmcmFtZS4gVGhlc2UgY2FuIGJlIHBsb3R0ZWQgYXMgYSBiYXIgZ3JhcGguDQoNCmBgYHtyfQ0KbGlicmFyeShkcGx5cikNCmxpYnJhcnkoZ2dwbG90MikNCnBuZygiaW1hZ2VzL2xpYl9zaXplLnBuZyIpDQptdXRhdGUoc2FtcGxlaW5mbywgTGliU2l6ZSA9IGNvbFN1bXMoYXNzYXkoZGRzKSkvMWU2KSAlPiUgDQogIGdncGxvdChhZXMoeCA9IE5hbWUsIHkgPSBMaWJTaXplKSkgKyBnZW9tX2NvbChmaWxsPSJzdGVlbGJsdWUiKSArIGdlb21faGxpbmUoeWludGVyY2VwdCA9IDIwLGNvbD0icmVkIixsdHk9MikNCmBgYA0KDQojIFBDQSBleGVyY2lzZQ0KDQpDb2xvdXJpbmcgYnkgYGNvbmRpdGlvbmAgcmV2ZWFscyBzb21lIGluY29uc2lzdGVuY2llcyBpbiBlbmNvZGluZw0KDQpgYGB7cn0NCmxpYnJhcnkoZHBseXIpDQpsaWJyYXJ5KGdncGxvdDIpDQpwY2FfZGF0YSA8LSBwbG90UENBKHZzZCxpbnRncm91cD0iVHJlYXRlZCIscmV0dXJuRGF0YSA9IFRSVUUpICU+JSANCiAgZHBseXI6OnJlbmFtZShSdW4gPSBuYW1lKSAlPiUgDQogIGxlZnRfam9pbihzYW1wbGVpbmZvKQ0KDQogIGdncGxvdChwY2FfZGF0YSxhZXMoeCA9IFBDMSwgeSA9IFBDMixjb2w9Y29uZGl0aW9uKSkgKyBnZW9tX3BvaW50KCkNCmBgYA0KDQpBZGRpbmcgbGFiZWxzIHRvIHRoZSBwbG90IHdpdGggYGdlb21fdGV4dGANCg0KYGBge3J9DQpwY2FfZGF0YSA8LSBwbG90UENBKHZzZCxpbnRncm91cD0iVHJlYXRlZCIscmV0dXJuRGF0YSA9IFRSVUUpICU+JSANCiAgZHBseXI6OnJlbmFtZShSdW4gPSBuYW1lKSAlPiUgDQogIGxlZnRfam9pbihzYW1wbGVpbmZvKQ0KDQogIGdncGxvdChwY2FfZGF0YSxhZXMoeCA9IFBDMSwgeSA9IFBDMixjb2w9Z3JvdXAsbGFiZWwgPSBOYW1lKSkgKyBnZW9tX3BvaW50KCkgKyBnZW9tX3RleHQoKQ0KYGBgDQoNCk5pY2VyIHBvc2l0aW9uaW5nIG9mIHRoZSBsYWJlbHMgaXMgcG9zc2libGUgd2l0aCB0aGUgYGdncmVwZWxgIHBhY2thZ2UuDQoNCmBgYHtyfQ0KbGlicmFyeShnZ3JlcGVsKQ0KcGNhX2RhdGEgPC0gcGxvdFBDQSh2c2QsaW50Z3JvdXA9IlRyZWF0ZWQiLHJldHVybkRhdGEgPSBUUlVFKSAlPiUgDQogIGRwbHlyOjpyZW5hbWUoUnVuID0gbmFtZSkgJT4lIA0KICBsZWZ0X2pvaW4oc2FtcGxlaW5mbykNCg0KICBnZ3Bsb3QocGNhX2RhdGEsYWVzKHggPSBQQzEsIHkgPSBQQzIsY29sPWdyb3VwLGxhYmVsID0gTmFtZSkpICsgZ2VvbV9wb2ludCgpICsgZ2VvbV90ZXh0X3JlcGVsKCkNCmBgYA0KDQojIFJlcGVhdCBhbmFseXNpcyB3aXRoIG5ldyBzYW1wbGUgc2hlZXQNCg0KQWZ0ZXIgaWRlbnRpZnlpbmcgYSBzYW1wbGUgc3dhcCwgd2UgY29ycmVjdCB0aGUgc2FtcGxlIHNoZWV0IGFuZCBzdGFydCB0aGUgZGF0YSBpbXBvcnQgYWdhaW4uIE9ubHkgdGhlIGRhdGEgZnJhbWUgY29udGFpbmluZyB0aGUgc2FtcGxlIGluZm9ybWF0aW9uIG5lZWRzIHRvIGNoYW5nZS4NCg0KYGBge3J9DQpzYW1wbGVpbmZvX2NvcnJlY3RlZCA8LSByZWFkX3RzdigibWV0YV9kYXRhL3NhbXBsZUluZm9fY29ycmVjdGVkLnR4dCIpDQpkZHMgPC0gREVTZXFEYXRhU2V0RnJvbVR4aW1wb3J0KHR4aSwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGNvbERhdGEgPSBzYW1wbGVpbmZvX2NvcnJlY3RlZCwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgZGVzaWduID0gfmNvbmRpdGlvbikNCmRkcw0KYGBgDQoNCiMjIFZlcmlmeSBzYW1wbGUgZ3JvdXBzIGFyZSBjb3JyZWN0DQoNClRoZSBQQ0EgcGxvdCBjYW4gYmUgdXNlZCB0byB2ZXJpZnkgdGhlIG5ldyBzYW1wbGUgZ3JvdXBzLiBBIGNsZWFyIHNlcGFyYXRpb24gaXMgc2VlbiBvbiB0aGUgZmlyc3QgY29tcG9uZW50IGJldHdlZW4gYmFzYWwgYW5kIGx1bWluYWwgc2FtcGxlcyAoYXMgd2Ugd291bGQgZXhwZWN0KS4NCg0KYGBge3J9DQp2c2QgPC0gdnN0KGRkcykNCnBsb3RQQ0EodnNkLGludGdyb3VwPSJjb25kaXRpb24iKQ0KYGBgDQoNCg0KYGBge3J9DQpzZXNzaW9uSW5mbygpDQpgYGANCg0K

Session 1 Solutions

Identifying the input files

Importing the files

PCA exercise

Repeat analysis with new sample sheet

Verify sample groups are correct