FastQC

来源:http://www.cnblogs.com/freescience/archive/2017/08/03/7277556.html
-Advertisement-
Play Games

1、下載fastqc 2、解壓 3、 給予執行許可權,否則執行的時候會顯示沒有許可權 cd FastQCchmod 755 fastqc 4、加入到PATH export PATH=/home/h/FastQC/:$PATH 4、加入到PATH 5、測試 fastqc --help 5、測試 使用例子 ...


1、下載fastqc
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip
2、解壓
unzip fastqc_v0.11.5.zip
  3、 給予執行許可權,否則執行的時候會顯示沒有許可權
cd FastQC
chmod 755 fastqc
  4、加入到PATH
export PATH=/home/h/FastQC/:$PATH
  5、測試
fastqc --help
使用例子
fastqc -o ./tmp.result/fastQC/ -t 6 ./tmp.data/fastq/H1EScell-dnase-2014-GSE56869_20151208_SRR1248176_1.fq
# -o --outdir FastQC生成的報告文件的儲存路徑,生成的報告的文件名是根據輸入來定的 # -t --threads 選擇程式運行的線程數,每個線程會占用250MB記憶體,越多越快咯     FastQC的報告介紹 整個報告分成若幹個部分。合格會有個綠色的對勾,警告是個“!”,不合格是個紅色的叉子   基本信息 # Encoding指測序平臺的版本和相應的編碼版本號,這個在計算Phred反推error P的時候有用 # Total Sequences記錄了輸入文本的reads的數量 # Sequence length是測序的長度 # %GC是我們需要重點關註的一個指標,這個值表示的是整體序列中的GC含量,這個數值一般是物種特異的,比如人類細胞就是42%左右   序列測序質量統計 # 此圖中的橫軸是測序序列第1個鹼基到第101個鹼基 # 縱軸是質量得分,Q = -10*log10(error P)即20表示1%的錯誤率,30表示0.1% # 圖中每1個boxplot,都是該位置的所有序列的測序質量的一個統計,上面的bar是90%分位數,下麵的bar是10%分位數,箱子的中間的橫線是50%分位數,箱子的上邊是75%分位數,下邊是25%分位數 # 圖中藍色的細線是各個位置的平均值的連線 # 一般要求此圖中,所有位置的10%分位數大於20,也就是我們常說的Q20過濾 # 所以上面的這個測序結果,需要把後面的87bp以後的序列切除,從而保證後續分析的正確性 # Warning 報警 如果任何鹼基質量低於10,或者是任何中位數低於25 # Failure 報錯 如果任何鹼基質量低於5,或者是任何中位數低於20   每個tail測序的情況 # 橫軸和之前一樣,代表101個鹼基的每個不同位置 # 縱軸是tail的Index編號 # 這個圖主要是為了防止在測序過程中,某些tail受到不可控因素的影響而出現測序質量偏低 # 藍色代表測序質量很高,暖色代表測序質量不高,如果某些tail出現暖色,可以在後續分析中把該tail測序的結果全部都去除   每條序列的測序質量統計 # 假如我測的1條序列長度為101bp,那麼這101個位置每個位置Q值的平均值就是這條reads的質量值 # 該圖橫軸是0-40,表示Q值 # 縱軸是每個值對應的reads數目 # 我們的數據中,測序結果主要集中在高分中,證明測序質量良好!   GC 含量統計 # 橫軸是1 - 101 bp;縱軸是百分比 # 圖中四條線代表A T C G在每個位置平均含量 # 理論上來說,A和T應該相等,G和C應該相等,但是一般測序的時候,剛開始測序儀狀態不穩定,很可能出現上圖的情況。像這種情況,即使測序的得分很高,也需要cut開始部分的序列信息,一般像我碰到這種情況,會cut前面5bp   序列平均GC含量分佈圖 # 橫軸是0 - 100%; 縱軸是每條序列GC含量對應的數量 # 藍色的線是程式根據經驗分佈給出的理論值,紅色是真實值,兩個應該比較接近才比較好 # 當紅色的線出現雙峰,基本肯定是混入了其他物種的DNA序列 # 這張圖中的信息良好   序列測序長度統計 # 每次測序儀測出來的長度在理論上應該是完全相等的,但是總會有一些偏差 # 比如此圖中,101bp是主要的,但是還是有少量的100和102bp的長度,不過數量比較少,不影響後續分析 # 當測序的長度不同時,如果很嚴重,則表明測序儀在此次測序過程中產生的數據不可信    序列Adapter # 此圖衡量的是序列中兩端adapter的情況 # 如果在當時fastqc分析的時候-a選項沒有內容,則預設使用圖例中的四種通用adapter序列進行統計 # 本例中adapter都已經去除,如果有adapter序列沒有去除乾凈的情況,在後續分析的時候需要先使用cutadapt軟體進行去接頭   重覆短序列 # 這個圖統計的是,在序列中某些特征的短序列重覆出現的次數 # 我們可以看到1-8bp的時候圖例中的幾種短序列都出現了非常多的次數,一般來說,出現這種情況,要麼是adapter沒有去除乾凈,而又沒有使用-a參數;要麼就是序列本身可能重覆度比較高,如建庫PCR的時候出現了bias # 對於這種情況,我的辦法是可以cut掉前面的一些長度,可以試著cut 5~8bp
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux文件系統結構 通過下麵兩張圖片來認識一下Linux文件系統的結構。 當前工作目錄 實踐: 文件名稱 這些規則不僅適用於文件,也適用於文件夾。 實踐: ls命令 ls命令表示列出當前工作目錄的內容,包括文件和文件夾。相當於windows中的文件瀏覽器。 最常用是'ls -a'和'ls -l' ...
  • Sublime Text是一個代碼編輯器,我主要是用它來編輯python。下麵就來簡單說明下它在linux的安裝過程吧! 1.添加sublime text3的倉庫 首先按下快捷鍵ctrl+alt+t打開終端; 在終端輸入:sudo add-apt-repository ppa:webupd8team ...
  • 在使用FastQC之後,如果我們發現了一些問題(序列質量不高),那麼我們該使用什麼樣的工具,去解決這些問題呢? fastx Toolkit是包含處理fastq/fasta文件的一系列的工具,它是基於java開發的,我們高通量測序最常用到的是使用這個軟體進行reads的裁剪(trim) FASTQ-t ...
  • 前面說了,我們要儘量少用GNOME圖形界面,而應該以使用BASH命令行為主。 SHELL Shell是操作系統內核的殼,因為我們不能直接操作系統的內核Kernel,只能通過Shell去操作,Shell可以簡單理解為用戶向操作系統發送指令的代理。 看下麵兩張圖。 GNOME指的是圖形界面,BASH就是 ...
  • 一、編譯安裝Apache 1、解決依賴關係 (1)編譯安裝apr (2)編譯安裝apr-util (3)httpd-2.4.27編譯過程也要依賴於pcre-devel軟體包,需要事先安裝 (4)創建用戶,組 2、編譯安裝httpd-2.4.27 3、配置Apache 二、編譯安裝Mysql 1、準備 ...
  • 一.背景由來 需求經常變化,每次都要發給相關人員查看,本地查看還需要設置相容性,太麻煩了。因此考慮是否可以利用伺服器來實時更新原型文件了。 二.相關準備 首先需要一臺閑置伺服器,(其實只要幾g的空間足夠。) 其他就是相關文件準備了,Tomcat,jdk等等。 三.具體搭建 1.安裝jdk a.在官網 ...
  • 利用awk分析data.csv中label列各取值的分佈. 在終端執行head data.csv查看數據: 因為行內包含換行符的項會被分成多行(例如上面的第3,4行),所以需要結合正則匹配 -F ',' 表示根據逗號分隔; $(NF-1)~/^[A-Z][0-9]/ 表示分隔後的倒數第二項(在此指取 ...
  • CentOS系統上使用rpm命令管理程式包:安裝、卸載、升級、查詢、校驗、資料庫維護 1.基本安裝 2.rpm選項 3.軟體包腳本 4.軟體包的升級 升級時的註意事項: 不要對內核進行升級操作,linux支持多內核並存,所以直接安裝新內核就好. 如果升級時原程式的配置文件被更改過的話,新程式不會覆蓋 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...