sra文件轉換為fastq格式 fastq-dump -h --split-3 也就是說如果SRA文件中只有一個文件,那麼這個參數就會被忽略。如果原文件中有兩個文件,那麼它就會把成對的文件按*_1.fastq,*_2.fastq這樣分開。如果還出現了第三個文件,就意味著這個文件本身是未成配對的部分。 ...
sra文件轉換為fastq格式
fastq-dump -h--split-3 也就是說如果SRA文件中只有一個文件,那麼這個參數就會被忽略。如果原文件中有兩個文件,那麼它就會把成對的文件按*_1.fastq,*_2.fastq這樣分開。如果還出現了第三個文件,就意味著這個文件本身是未成配對的部分。可能是當初提交的時候因為事先過濾過了一下,所以有一部分數據被刪除了。 --gzip 輸出文件壓縮成gzip格式(通常gzip僅用來壓縮單個文件。多個文件的壓縮歸檔通常是首先將這些文件合併成一個tar文件,然後再使用gzip進行壓縮,最後生成的.tar.gz或者.tgz文件就是所謂的“tar壓縮包”或者“tarball”) --bzip2 輸出文件壓縮成bzip2格式(bzip2比傳統的gzip或者ZIP的壓縮效率更高,但是它的壓縮速度較慢)
ls *.sra|while read id;do(fastq-dump --split-3 $id);done我們的數據是Illumina的雙端測序,所以用fastq-dump --split-3命令來把sra格式數據轉換為fastq。 總共有7個測序數據,所以最好是同步改名,用-A參數,為了節省空間,用--gzip壓縮。
perl -F'\t' -alne 'if($F[7]=~/SRR/){$F[6]=~s/\s/_/g;$F[13]=~s/\s|#/_/g;$F[13]=~s/\(|\)//g;print "$F[7]\t$F[6]_$F[13]"}' SraRunTable.txt > Rename.txt perl -F'\t' -alne 'print "fastq-dump --split-3 --gzip -A $F[1] $F[0].sra"' Rename.txt > sratofq.sh數據校驗及備份存放 在此最開始之前應該做個md5sum數據傳輸完整性驗證;或者拿到自己的數據後,壓縮後生產MD5文件,然後備份保存
bash sratofq.sh
md5sum *.fastq.gz > md5sum.txt質控FastQC
mkdir rna_seq/work && cd rna_seq/work ln ../data/* . # 建立軟連接 mkdir 1_FastQC_Raw_Data ls *.gz|while read id;do(fastqc $id -o 1_FastQC_Raw_Data -t 3);done問題: FastQC報告中哪些是值得關註的? 註意事項: 1、數據質控是一個綜合的評價標準,其中主要指標為鹼基質量與含量分佈,如果這兩個指標合格了,後面大部分指標都可以通過。如果這兩項不合格,其餘都會受到影響。 2、其中一些指標並不適合所有數據。要根據具體數據類型,具體分析。