轉錄組入門(4):瞭解參考基因組及基因註釋

来源:http://www.cnblogs.com/freescience/archive/2017/08/11/7310185.html
-Advertisement-
Play Games

任務列表 1.在UCSC下載hg19參考基因組; 2.從gencode資料庫下載基因註釋文件,並且用IGV去查看感興趣的基因的結構,比如TP53,KRAS,EGFR等等。 3.截圖幾個基因的IGV可視化結構 4.下載ENSEMBL,NCBI的gtf,也導入IGV看看,截圖基因結構 5.瞭解IGV常識 ...


任務列表
  • 1.在UCSC下載hg19參考基因組;
  • 2.從gencode資料庫下載基因註釋文件,並且用IGV去查看感興趣的基因的結構,比如TP53,KRAS,EGFR等等。
  • 3.截圖幾個基因的IGV可視化結構
  • 4.下載ENSEMBL,NCBI的gtf,也導入IGV看看,截圖基因結構
  • 5.瞭解IGV常識
在UCSC下載hg19參考基因組 hg19、GRCH38、 ensembl75這3種基因組版本應該是大家見得比較多的了,國際通用的人類參考基因組,其實他們儲存的是同樣的fasta序列,只是分別對應著三種國際生物信息學資料庫資源收集存儲單位,即NCBI,UCSC及ENSEMBL各自發佈的基因組信息而已。有一些參考基因組比較小眾,存儲的序列也不一樣,比如BGI做的炎黃基因組,還有DNA雙螺旋結構提出者沃森(Watson)的基因組,還有2016年發表在nature上面的號稱最完善的南韓人做的基因組。前期我們先不考慮這些小眾基因組,主要就下載hg19和hg38,都是UCSC提供的,雖然hg38相比hg19來說,做了很多改進,優點也不少,但因為目前為止很多註釋信息都是針對於hg19的坐標系統來的,我們就都下載了,正好自己探究一下。也順便下載一個小鼠的最新版參考基因組吧,反正比對也就是睡個覺的功夫,順便分析一下結果,看看比對率是不是很低。
mkdir rna_seq/data/reference && cd rna_seq/data/reference
mkdir -p genome/hg19 && cd genome/hg19
# nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# nohup 是永久執行,& 是指在後臺運行。nohup COMMAND & 這樣就能使命令永久的在後臺執行
nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa
從gencode資料庫下載基因註釋文件,並且用IGV去查看感興趣的基因的結構 下載基因註釋文件 官網:http://www.gencodegenes.org/releases/26lift37.html
wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
gzip -d gencode.v26lift37.annotation.gtf.gz
  下載安裝IGV、BEDtool 官網:http://software.broadinstitute.org/software/igv/download(下載 Binary Distribution 版本)
wget https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz
tar -zxvf bedtools-2.26.0.tar.gz
cd bedtools2
make
  截圖幾個基因的IGV可視化結構 批量截圖:TP53,KRAS,EGFR
grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'TP53' | cut -f 1,4,5 >> gene.bed
grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'KRAS' | cut -f 1,4,5 >> gene.bed
grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'EGFR' | cut -f 1,4,5 >> gene.bed
~/biosoft/bedtools2/bin/bedtools igv -i gene.bed > Bach_sanpshot.txt
grep是一個多用途的文本搜索工具,linux中使用非常頻繁,並且使用很靈活,可以是變數,也可以是字元串。最基本的用法有以下兩種:
  • 1.搜索內容中無空格,可以直接執行grep命令,比如:grep pass a.txt,表示在a.txt文件中搜索pass所在的行
  • 2.如果搜索內容中有空格,則需要使用單引號或者雙引號把搜索內容引起來,比如:grep "hello all" a.txt或者grep 'hello all' a.txt,如果不加單雙引號,則提示錯誤,無法識別,因為不加引號,直接grep hello all a.txt,表示在all和a.txt中搜索hello,這肯定是不對的
grep -w option file:精確搜索,可以說準確性搜索,比如:grep -w b* a.txt:此命令執行時,*不會預設為任何字元,只表示字面意思,就是一個*字元
管道命令操作符:”|”,它僅能處理經由前面一個指令傳出的正確輸出信息,也就是 standard output 的信息,對於 stdandard error 信息沒有直接處理能力。然後,傳遞給下一個命令,作為標準的輸入 standard input
cut 命令從文件的每一行剪切位元組、字元和欄位並將這些位元組、字元和欄位寫至標準輸出。如果不指定 File 參數,cut 命令將讀取標準輸入。必須指定 -b、-c 或 -f 標誌之一。使用 -f 選項提取指定欄位 下載ENSEMBL,NCBI的gtf
axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr.gtf.gz
axel  ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_top_level.gff3.gz
axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_scaffolds.gff3.gz

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近在做MySQL主從資料庫同步測試,發現了一些問題,其中主從同步延遲問題是其中之一,下麵內容是從網上找到的一些講解,記錄下來以便自己學習; MySQL的主從同步是一個很成熟的架構,優點為:①在從伺服器可以執行查詢工作(即我們常說的讀功能),降低主伺服器壓力;②在從主伺服器進行備份,避免備份期間影響 ...
  • 上周拿到了我的第一個工作任務,統計一個按天分區每天都有百億條數據條的hive表中account欄位的非重用戶數(大概兩千萬)。後來又更改為按id欄位分別統計每個id的用戶數。 按照我資料庫老師的教導,我很輕易的跳出來了count(distinct account)這個句子。然後寫上了一行查詢,等待了 ...
  • 我們知道Oracle資料庫真正存放數據的是數據文件(Data File),oracle表空間(tablespace)實際上是一個邏輯的概念,在物理上是並不存在的,那麼把一組data files捻在一起就成為一個表空間。表空間屬性:一個資料庫可以包含多個表空間,一個表空間只能屬於一個資料庫一個表空間包 ...
  • 在sqlserver2008中“新建查詢”,執行批量添加語句的執行時間: 10000 條數據 用了3秒50000 條數據 21秒100000 條數據 42秒40000 條數據 16秒200000 條數據 1:37秒 ...
  • Hbase集群監控 Hbase JMX集群監控,監控每個regionServer的總請求數,readRequestsCount,writeRequestCount,region分裂,region合併,Store 數據來源:/jmx?qry=Hadoop:service=HBase,name=Reg... ...
  • 仔細觀察上面幾個圖,比較下 oracle資料庫中的+操作符竟然可以替換left join 和right join sql server暫時沒用到過 ...
  • 最近在寫一些介面,總結一下目前想到的一些需要註意的點,說的並不是sqlserver與其他資料庫語句的區別,只是想到了就寫下來了,老規矩之後想到了在添加進去 分頁 sqlserver sqlserver一般通過not in/row_number()(不支持limit)一共兩種,網上還有一種是要在201 ...
  • 本文目錄: 1.1 PXE說明 1.2 PXE流程 1.3 部署環境說明 1.4 部署DHCP服務 1.5 部署FTP 1.6 提供pxe的boot loader和相關配置文件 1.7 從安裝鏡像中獲取Linux內核文件 1.8 設置開機菜單並提供系統安裝文件 1.9 開機測試 1.10 通過pxe ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...