sadII_zadanie_zaliczeniowe

2261 days ago by macieksk

#Set output widths better .adjustWidth <- function(...){ options(width=10000) ; TRUE} .adjustWidthCallBack <- addTaskCallback(.adjustWidth) 
       
%html <h3>Zadanie: </h3> <big> <p> Z dostępnych danych na serwerze UCSC wybierz dane dotyczące genomu człowieka i przeanalizuj je wg własnego pomysłu. Dobrze, jeśli dane będą znane Ci w jakimś stopniu z innych przedmiotów.<br> Na Twoją analizę powinny składać się części: <ul> <li> poznawcza (proste wykresy, histogramy, statystyki sumaryczne, grupowe, wykresy z podziałem na podgrupy (pakiet lattice), ...) <li> testowanie prostych hipotez (testy statystyczne na zależność, pochodzenie z rozkładu, ...) <li> modelowanie oraz testowanie hipotez bardziej złożonych (modele liniowe, uogólnione liniowe: glm, i inne bardziej złożone modele, które mogą pasować do danych: HMM, LDA, klastrowanie, </ul> <p> Dane możesz ściągnąć używając pakietu "rtracklayer" (sadII_lab8_uscsc_data), lub wgrać je wysyłając pliki na serwer Sage. <p> O dostępnych danych możesz dowiedzieć się więcej używając <a href="http://genome.ucsc.edu/cgi-bin/hgTracks">UCSC Track Search</a> <p> Projekt wykonujemy w notatniku sage. <p> Chciałbym byście w ciągu tygodnia dokonali wyboru danych na jakich będziecie pracować i w jakimś stopniu wykonali część poznawczą, tak abym mógł na następnych zajęciach przedyskutować z Wami kolejne kroki. 
       

Zadanie:

Z dostępnych danych na serwerze UCSC wybierz dane dotyczące genomu człowieka i przeanalizuj je wg własnego pomysłu. Dobrze, jeśli dane będą znane Ci w jakimś stopniu z innych przedmiotów.
Na Twoją analizę powinny składać się części:

  • poznawcza (proste wykresy, histogramy, statystyki sumaryczne, grupowe, wykresy z podziałem na podgrupy (pakiet lattice), ...)
  • testowanie prostych hipotez (testy statystyczne na zależność, pochodzenie z rozkładu, ...)
  • modelowanie oraz testowanie hipotez bardziej złożonych (modele liniowe, uogólnione liniowe: glm, i inne bardziej złożone modele, które mogą pasować do danych: HMM, LDA, klastrowanie,

Dane możesz ściągnąć używając pakietu "rtracklayer" (sadII_lab8_uscsc_data), lub wgrać je wysyłając pliki na serwer Sage.

O dostępnych danych możesz dowiedzieć się więcej używając UCSC Track Search

Projekt wykonujemy w notatniku sage.

Chciałbym byście w ciągu tygodnia dokonali wyboru danych na jakich będziecie pracować i w jakimś stopniu wykonali część poznawczą, tak abym mógł na następnych zajęciach przedyskutować z Wami kolejne kroki.

# pakiet "rtracklayer" # Przykladowa sesja z uzyciem tego pakietu w notatniuku "sadII_lab8_ucsc_data" library(rtracklayer) session <- browserSession("UCSC") tnames<-trackNames(session) 
       
# Nalezy wybrac dane do analizy z ponizej dostepnych trackow length(tnames) tnames 
       
[1] 150
              Base Position             Chromosome Band             
STS Markers                 FISH Clones                 Recomb Rate 
ENCODE Pilot                 Map Contigs                    Assembly
GRC Map Contigs                         Gap               
Publications               BAC End Pairs            Fosmid End Pairs
GC Percent           GRC Patch Release                   Hg18 Diff  
GRC Incident                Hi Seq Depth                  Wiki Track
BU ORChID                  Mapability                 Short Match   
Restr Enzymes                    GAD View                   
DECIPHER                OMIM AV SNPs                  OMIM Genes    
OMIM Pheno Loci                      COSMIC                GWAS
Catalog                        ISCA               RGD Human QTL     
RGD Rat QTL               MGI Mouse QTL                 GeneReviews 
UCSC Genes              Old UCSC Genes                  Alt Events  
GENCODE Genes V11           GENCODE Genes V10            GENCODE
Genes V7                        CCDS                RefSeq Genes    
Other RefSeq                   MGC Genes              ORFeome Clones
TransMap...                  Vega Genes               Ensembl Genes 
AceView Genes                   SIB Genes                     
N-SCAN                   SGP Genes                Geneid Genes      
Genscan Genes                    Exoniphy               Yale
Pseudo60                  tRNA Genes                   H-Inv 7.0    
EvoFold                   sno/miRNA           IKMC Genes Mapped     
lincRNAs...                 Human mRNAs                Spliced ESTs 
Human ESTs                 Other mRNAs                  Other ESTs  
H-Inv                 Gene Bounds            SIB Alt-Splicing       
Poly(A)                   PolyA-Seq                   CGAP SAGE     
Human RNA Editing             Affy Exon Array                  Affy
GNF1H                Affy RNA Loc                   Affy U133       
Affy U133Plus2                    Affy U95                 Allen
Brain               Burge RNA-seq           ENC Exon Array...       
ENC ProtGeno...              ENC RNA-seq...                 GIS RNA
PET                 GNF Atlas 2               Illumina WG-6         
RIKEN CAGE Loc                Sestan Brain        ENCODE
Regulation...                 CD34 DnaseI                 CpG
Islands            ENC Chromatin...           ENC DNA Methyl...     
ENC DNase/FAIRE...              ENC Histone...          ENC RNA
Binding...           ENC TF Binding...              FSU Repli-chip  
ORegAnno            Stanf Nucleosome             SUNY SwitchGear    
SwitchGear TSS              TFBS Conserved              TS miRNA
sites             UMMS Brain Hist                UW Repli-seq       
Vista Enhancers           NKI Nuc Lamina...           UCSF Brain
Methyl                Conservation            Cons Indels MmCf      
GERP                     Evo Cpg              mm10 Chain/Net        
Primate Chain/Net         Placental Chain/Net        hg19Patch2
Chain/Net        Vertebrate Chain/Net            H-C Coding Diffs   
Sel Swp Scan (S)                 5% Lowest S                      S
SNPs              Neandertal Seq            Common SNPs(135)        
Flagged SNPs(135)             Mult. SNPs(135)               All
SNPs(135)            Common SNPs(132)           Flagged SNPs(132)   
Mult. SNPs(132)               All SNPs(132)                  SNPs
(131)                      Arrays                 GIS DNA PET       
HAIB Genotype                  SNP Arrays            HGDP Allele
Freq                 HapMap SNPs              DGV Struct Var        
Segmental Dups                RepeatMasker            Interrupted
Rpts              Simple Repeats              Microsatellite        
Self Chain             Genome Variants              NumtS Sequence 
                    "ruler"                  "cytoBand"             
"stsMap"                "fishClones"                "recombRate"    
"encodeRegions"                    "ctgPos"                     
"gold"                   "ctgPos2"                       "gap"      
"pubs"               "bacEndPairs"               "fosEndPairs"      
"gc5Base"           "altSeqComposite"            "hg19ContigDiff"   
"grcIncidentDb"                "hiSeqDepth"                
"wikiTrack"          "wgEncodeBuOrchid"        "wgEncodeMapability" 
"oligoMatch"                   "cutters"                       "gad"
"decipher"                 "omimAvSnp"                 "omimGene2"  
"omimLocation"                    "cosmic"              
"gwasCatalog"             "iscaComposite"                   
"rgdQtl"                 "rgdRatQtl"              "jaxQtlMapped"    
"geneReviews"                 "knownGene"            
"knownGeneOld5"                  "knownAlt"       
"wgEncodeGencodeV11"        "wgEncodeGencodeV10"        
"wgEncodeGencodeV7"                  "ccdsGene"                  
"refGene"               "xenoRefGene"               "mgcFullMrna"   
"orfeomeMrna"                  "transMap"        
"vegaGeneComposite"                   "ensGene"                  
"acembly"                   "sibGene"                 "nscanGene"   
"sgpGene"                    "geneid"                   "genscan"   
"exoniphy"              "pseudoYale60"                     "tRNAs"  
"hinv70Composite"                   "evofold"                    
"wgRna"                    "hgIkmc"                  "lincRNAs"     
"mrna"                 "intronEst"                       "est"      
"xenoMrna"                   "xenoEst"              "HInvGeneMrna"  
"rnaCluster"                "sibTxGraph"                     "polyA"
"polyASeqSites"                  "cgapSage"                   
"darned"             "affyExonArray"                 "affyGnf1h"    
"wgEncodeAffyRnaChip"                  "affyU133"            
"affyU133Plus2"                   "affyU95"            
"allenBrainAli" "burgeRnaSeqGemMapperAlign"   
"wgEncodeExonArraySuper"     "wgEncodeProtGenoSuper"      
"wgEncodeRnaSeqSuper"         "wgEncodeGisRnaPet"                
"gnfAtlas2"            "illuminaProbes"         "wgEncodeRikenCage" 
"sestanBrainAtlas"               "wgEncodeReg"               
"eioJcviNAS"              "cpgIslandExt"        "wgEncodeChromSuper"
"wgEncodeDnaMethylSuper"        "wgEncodeDNAseSuper"     
"wgEncodeHistoneSuper"          "wgEncodeRbpSuper"   
"wgEncodeTfBindingSuper"      "wgEncodeFsuRepliChip"                
"oreganno"         "wgEncodeSydhNsome"    "wgEncodeSunySwitchgear"  
"switchDbTss"             "tfbsConsSites"              
"targetScanS"         "uMassBrainHistone"       
"wgEncodeUwRepliSeq"            "vistaEnhancers"             
"laminB1Super"           "ucsfBrainMethyl"                
"cons46way"      "consIndelsHgMmCanFam"              "allHg19RS_BW" 
"evoCpg"              "chainNetMm10"           "primateChainNet"    
"placentalChainNet"        "chainNetHg19Patch2"       
"vertebrateChainNet"      "ntHumChimpCodingDiff"         
"ntSssZScorePMVar"                "ntSssTop5p"                
"ntSssSnps"                "ntSeqReads"              "snp135Common" 
"snp135Flagged"                "snp135Mult"                   
"snp135"              "snp132Common"             "snp132Flagged"    
"snp132Mult"                    "snp132"                    "snp131"
"genotypeArrays"         "wgEncodeGisDnaPet"     
"wgEncodeHaibGenotype"                  "snpArray"                  
"hgdpGeo"                "hapmapSnps"                       "dgv"   
"genomicSuperDups"                      "rmsk"            
"nestedRepeats"              "simpleRepeat"                 
"microsat"                 "chainSelf"                     "pgSnp"  
"numtSeq" 
%html Tak można uzyskać informacje o tracku "Recomb Rate": <br><a href="http://genome.ucsc.edu/cgi-bin/hgTracks?hgsid=264522375&hgt_=1336477179&db=hg19&tsCurTab=simpleTab&hgt_tsDelRow=&hgt_tsAddRow=&hgt_tsPage=0&tsSimple=Recomb+Rate&hgt_tSearch=search&tsName=&tsDescr=&tsGroup=Any&tsType=Any&hgt_mdbVar1=cell&hgt_mdbVal1=Any&hgt_mdbVar2=antibody&hgt_mdbVal2=Any" > UCSC Search: "Recomb Rate" </a> 
       
Tak można uzyskać informacje o tracku "Recomb Rate":
UCSC Search: "Recomb Rate"
 
       
# Podczas rozwiazywania zadania nalezy czesto zapisywac srodowisko R save.image("data/nazwa.Rdata") # Jesli zapiszemy do podkatalogu "data/" to nasze dane zostana zachowane w notatniku Sage i mozna je pozniej wczytac. load("data/nazwa.Rdata") #Do katalogu "data/" mozna takze wgrac plik ze swojego komputera uzywajac zakladki "Data..." na gorze notatnika. 
       
# Gdy chcemy sciagnac plik wygodnie jest zapisac go w katalogu bierzacym, wtedy pojawi sie link do sciagniecia save.image("nazwa.Rdata")