C++使用htslib庫讀入和寫出bam文件

来源:http://www.cnblogs.com/ywliao/archive/2017/11/15/7823029.html
-Advertisement-
Play Games

  有時候我們需要使用C++處理bam文件,比如取出read1或者read2等符合特定條件的序列,根據cigar值對序列指定位置的鹼基進行統計或者對序列進行處理並輸出等,這時我們可以使用htslib庫。htslib可以用來處理SAM, BAM,CRAM 和VCF文件,是samto ...


  有時候我們需要使用C++處理bam文件,比如取出read1或者read2等符合特定條件的序列,根據cigar值對序列指定位置的鹼基進行統計或者對序列進行處理並輸出等,這時我們可以使用htslib庫。htslib可以用來處理SAM, BAM,CRAM 和VCF文件,是samtools、bcftools的核心庫。

#include <stdio.h>
#include <stdlib.h>
#include <htslib/sam.h>

using namespace std; 

#define bam_is_read1(b) (((b)->core.flag&BAM_FREAD1) != 0)

uint8_t Base[16] = {0,65,67,0,71,0,0,0,84,0,0,0,0,0,0,78};

int main(int argc, char **argv)
{
    bam_hdr_t *header;
    bam1_t *aln = bam_init1();

    samFile *in = sam_open(argv[1], "r");
    htsFile *outR1 = hts_open(argv[2], "wb");
    header = sam_hdr_read(in);
    if (sam_hdr_write(outR1, header) < 0) {
        fprintf(stderr, "Error writing output.\n");
        exit(-1);
    }
    uint8_t *seq;
    int32_t lseq;
    uint32_t *cigar;
    char* qname;
    while (sam_read1(in, header, aln) >= 0) {
        if (bam_is_read1(aln)){
            sam_write1(outR1, header, aln);
        }
        else {
            seq = bam_get_seq(aln);
            lseq = aln->core.l_qseq;
            qname  = bam_get_qname(aln);
            printf("%s\n",qname);
            cigar = bam_get_cigar(aln);
            for(int i=0; i < aln->core.n_cigar;++i){
                int icigar = cigar[i];
                printf("%d%d\n",bam_cigar_op(icigar),bam_cigar_oplen(icigar));
            }
            for(int i=0; i < lseq;++i){
               printf("%c", Base[bam_seqi(seq, i)]);
            }
            printf("\n");

        }
    }
    sam_close(in);
    sam_close(outR1);
}

cigar值存儲形式

32位int,通過bam_get_cigar獲得地址,aln->core.n_cigar返回cigar operation的個數

  • 低 4位存儲cigar operation;通過函數bam_cigar_op()獲得operation
  • 高28位存儲cigar值的長度;通過函數,bam_cigar_oplen獲得

seq存儲形式

8位int,4位存儲一個鹼基,1,2,4,8,15分別代表A、C、G、T、N,高四位存儲坐標數較小的鹼基,可通過bam_seqi(seq,i)遍歷。



參考資料

htslib sam.h文件:https://github.com/samtools/htslib/blob/develop/htslib/sam.h
htslib sam文件格式說明:https://github.com/samtools/hts-specs/blob/master/SAMv1.pdf


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 不過大部分手機鬧鐘都不支持這種以小時為單位的周期鬧鈴。所以,我以前每次都是都手動調整鬧鐘時間。總感覺有點 Low!於是,我就寫了個簡單的發郵件的 Lua 腳本,放到樹莓派上作為一個shell命令使用;然後在每周一到周五的9點至23點整點各執行一次發郵件的操作。郵件是發到了我的 QQ 郵箱。收到QQ郵... ...
  • 一萬年太久,只爭朝夕 What JDBC 上部 JDBC(Java DataBase Connectivity)Java 資料庫連接,主要提供編寫 Java 資料庫應用程式的 API 支持 java.sql包中定義的常用的基本的 JDBC API: 類 DriverManager-管理一組 JDBC ...
  • 恢復內容開始 Django 創建第一個項目 本章我們將介紹Django 管理工具及如何使用 Django 來創建項目,第一個項目我們以 HelloWorld 來命令項目。 Django 管理工具 安裝 Django 之後,您現在應該已經有了可用的管理工具 django-admin.py。我們可以使用 ...
  • 一.實現多態所具備的條件有3個: 1.繼承關係 2.子類重寫父類的方法 3.父類的引用指向子類的對象 二.實現一波: 1.編寫Animal類,作為一個父類,有一個name方法,用於給子類重寫. 2.編寫Monkey類繼承Animal類,並重寫父類name方法,擁有自己獨有的climb()方法 3.編 ...
  • 對於所有的Web應用,本質上其實就是一個socket服務端,用戶的瀏覽器其實就是一個socket客戶端。 import socket def f1(request): """ 處理用戶請求,並返回相應的內容 :param request: 用戶請求的所有信息 :return: """ f = ope ...
  • 本文例子完整源碼地址:https://github.com/yu-linfeng/BlogRepositories/tree/master/repositories/Spring%20AOP%E9%AB%98%E7%BA%A7%E2%80%94%E2%80%94%E6%BA%90%E7%A0%81% ...
  • 近日工程中,逐漸感覺到原來複制粘貼代碼的笨重,突然想起以前有人和我說起過Git和SVN之類的版本管理工具。由於平時主要是寫Java代碼,所以能夠在Eclipse中使用SVN工具進行版本管理就可以說是很方便了。今天下午動手解決了這一問題,可以初步使用,但是自己對於版本管理的概念不太熟悉,可能有錯誤,就 ...
  • java.io java.lang java.util (2)第二部分:這一部分是java web開發的核心內容之一,要求要有深刻的理解。(包括了java的反射、網路io、非阻塞、併發編程)————某些大牛說,這一部分運用的好壞,掌握的水平高低,會決定一個java開發程員的檔次: java.lang ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...