任務列表 1.在UCSC下載hg19參考基因組; 2.從gencode資料庫下載基因註釋文件,並且用IGV去查看感興趣的基因的結構,比如TP53,KRAS,EGFR等等。 3.截圖幾個基因的IGV可視化結構 4.下載ENSEMBL,NCBI的gtf,也導入IGV看看,截圖基因結構 5.瞭解IGV常識 ...
任務列表
- 1.在UCSC下載hg19參考基因組;
- 2.從gencode資料庫下載基因註釋文件,並且用IGV去查看感興趣的基因的結構,比如TP53,KRAS,EGFR等等。
- 3.截圖幾個基因的IGV可視化結構
- 4.下載ENSEMBL,NCBI的gtf,也導入IGV看看,截圖基因結構
- 5.瞭解IGV常識
mkdir rna_seq/data/reference && cd rna_seq/data/reference mkdir -p genome/hg19 && cd genome/hg19 # nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz & # nohup 是永久執行,& 是指在後臺運行。nohup COMMAND & 這樣就能使命令永久的在後臺執行 nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz & tar zvfx chromFa.tar.gz cat *.fa > hg19.fa rm chr*.fa從gencode資料庫下載基因註釋文件,並且用IGV去查看感興趣的基因的結構 下載基因註釋文件 官網:http://www.gencodegenes.org/releases/26lift37.html
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz gzip -d gencode.v26lift37.annotation.gtf.gz下載安裝IGV、BEDtool 官網:http://software.broadinstitute.org/software/igv/download(下載 Binary Distribution 版本)
wget https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz tar -zxvf bedtools-2.26.0.tar.gz cd bedtools2 make截圖幾個基因的IGV可視化結構 批量截圖:TP53,KRAS,EGFR
grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'TP53' | cut -f 1,4,5 >> gene.bed grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'KRAS' | cut -f 1,4,5 >> gene.bed grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'EGFR' | cut -f 1,4,5 >> gene.bed ~/biosoft/bedtools2/bin/bedtools igv -i gene.bed > Bach_sanpshot.txtgrep是一個多用途的文本搜索工具,linux中使用非常頻繁,並且使用很靈活,可以是變數,也可以是字元串。最基本的用法有以下兩種:
- 1.搜索內容中無空格,可以直接執行grep命令,比如:grep pass a.txt,表示在a.txt文件中搜索pass所在的行
- 2.如果搜索內容中有空格,則需要使用單引號或者雙引號把搜索內容引起來,比如:grep "hello all" a.txt或者grep 'hello all' a.txt,如果不加單雙引號,則提示錯誤,無法識別,因為不加引號,直接grep hello all a.txt,表示在all和a.txt中搜索hello,這肯定是不對的
管道命令操作符:”|”,它僅能處理經由前面一個指令傳出的正確輸出信息,也就是 standard output 的信息,對於 stdandard error 信息沒有直接處理能力。然後,傳遞給下一個命令,作為標準的輸入 standard inputcut 命令從文件的每一行剪切位元組、字元和欄位並將這些位元組、字元和欄位寫至標準輸出。如果不指定 File 參數,cut 命令將讀取標準輸入。必須指定 -b、-c 或 -f 標誌之一。使用 -f 選項提取指定欄位 下載ENSEMBL,NCBI的gtf
axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr.gtf.gz
axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_top_level.gff3.gz axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_scaffolds.gff3.gz