從細菌GFF文件提取CDS序列並轉換為氨基酸序列

来源:http://www.cnblogs.com/zxzhu/archive/2017/11/26/7900843.html
-Advertisement-
Play Games

最近在上生物信息學原理,打算記錄一些課上的作業。第一次作業:如題。 基本思路: 1.從GFF中讀取CDS的起始終止位置以及正負鏈信息。GFF格式見 http://blog.sina.com.cn/s/blog_8a4f556e0102yd3l.html. 2.利用起始/終止位置等信息從FNA文件中提 ...


最近在上生物信息學原理,打算記錄一些課上的作業。第一次作業:如題。

基本思路:

      1.從GFF中讀取CDS的起始終止位置以及正負鏈信息。GFF格式見 http://blog.sina.com.cn/s/blog_8a4f556e0102yd3l.html.

      2.利用起始/終止位置等信息從FNA文件中提取CDS序列。FNA格式見 http://boyun.sh.cn/bio/?p=1192.

      3.利用CDS序列及密碼子表得到FAA文件並輸出。

註意:最需要註意的一點是:當GFF中CDS位於負鏈時,需要進行鹼基互補配對,即反向互補(5'到3'配3'到5')。

下麵給出python代碼。python3.6

以下問題有待解決:得到的FNA文件和FAA文件的註釋信息不全,並且沒有提供命令行參數,交完作業再補充。

 1 #bioinformatics homework
 2 import re
 3 class CDS2AA():
 4     pa = re.compile(r'\s+')
 5     Pa = re.compile(r'[TCAG]TG')                 # 細菌起始密碼子NTG
 6     def __init__(self,fna,gff):
 7         self.fna = fna
 8         self.gff = gff
 9     def N2M(self,sequence):
10         hash = {'A': 'T', 'T': 'A', 'C': 'G', 'G': 'C'}
11         sequence = ''.join([hash[i] for i in sequence])     #正負鏈轉換
12         return sequence[::-1]
13     def Get_CDS_index(self,line):
14         line = self.pa.split(line)
15         CDS = (line[0], line[3], line[4], line[6])
16         return CDS
17     def Seq2AA(self,sequence,hash):
18         AA = hash[sequence[:3]]
19         if self.Pa.match(sequence[:3]):
20             AA = 'M'                                 #起始密碼子
21         for i in range(3, len(sequence) - 3, 3):
22             AA += hash[sequence[i:i + 3]]
23         return AA
24     def CDS2AA(self):
25         fn = open(self.fna, 'r')
26         gf = open(self.gff,'r')
27         r = open('AA_sequence.txt', 'w')
28         w = open('CDS.txt', 'w')
29         hash_AA = {}  # AA hash,sequence2AA
30         with open('AA.txt', 'r') as f:              
31             for line in f:
32                 line = line.strip()
33                 if line:
34                     line = self.pa.split(line)
35                     hash_AA[line[0]] = line[1]      #AA hash
36         hash_CDS = {}  # CDS hash,CDS2sequence
37         for line in fn:
38             line = line.strip()
39             if line.startswith('>'):
40                 A = self.pa.split(line)[0].replace('>', '')
41                 hash_CDS[A] = ''
42             else:
43                 hash_CDS[A] += line
44         fn.close()
45         for line in gf:
46             line = line.strip()
47             if 'CDS' in line:
48                 i = self.Get_CDS_index(line)
49                 sequence = hash_CDS[i[0]][int(i[1]) - 1:int(i[2])]
50                 if i[3] == '-':
51                     sequence = self.N2M(sequence)
52                 #w.write(i[0] + '\n' + sequence + '\n')
53                 s = self.pa.split(line)
54                 p = re.compile(r'ID=(.*?);.*?Dbxref=(.*?);.*?Name=(.*?);.*?gbkey=(.*?);.*?product=(.*?);.*?protein_id=(.*?);')
55                 m = re.findall(p,line)
56                 s = s[0]+'_'+m[0][0]+m[0][2]+'\tdbxref='+m[0][1]+'\tprotein='+m[0][4]+'\tprotein_id='+m[0][5]+'\tgbkey='+m[0][3]
57                 w.write(s + '\n' + sequence + '\n')
58                 AA = self.Seq2AA(sequence, hash_AA)
59                 r.write(i[0] + '\n' + AA + '\n')
60         w.close()
61         r.close()
62 
63 if __name__=='__main__':
64     fna = 'GCA_000160075.2_ASM16007v2_genomic.fna'
65     gff = 'GCA_000160075.2_ASM16007v2_genomic.gff'
66     m = CDS2AA(fna,gff)
67     m.CDS2AA()

一些其他的問題我會在交作業前完善。後面的有意思作業題目會陸續上傳。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • day1.python常用數據類型 簡要日記 一· 1.常用數據類型:整型,浮點型,布爾類型,複數類型等 2整型:即整數,類似於Java的BigInteger類型,長度不受限制(只受限於虛擬記憶體總數)。可進行大數計算。 3浮點型:即小數,(python區分整型和浮點型的唯一方式就是小數點。)常用e記 ...
  • 轉載出處:http://blog.csdn.net/pushiqiang/article/details/74949465 Django 信號 (Signals) 的功能類似於 WordPress 的動作 (action),用於為項目全局增加事件的廣播 (dispatch) 與接收 (receive ...
  • <兄弟連Python06前期計算器————知識點 沒學多久Python,沒有各位大神趟的水多。電腦弄了一兩天,做的比較糙。菜單基本是廢了/(ㄒoㄒ)/~~。。。。。。函數部分本來還要有個開平方,實在沒做出來還望看到的大神指點一下。 邏輯基本是按照輸入數字——輸入運算符——輸入數字——‘=’號運算結 ...
  • 需求如下:迭代輸出序列的索引(index)和索引值(value)。 1.創建測試列表: 2.實現方法如下: 關於enumerate的詳細介紹,請參考我的隨筆:Python中enumerate用法詳解 此外,字典的遍歷方法可以參考我的隨筆: Ptyhon中遍曆數據字典的方式詳解 ...
  • 個人開發學習過程中收集的一些學習資料,分享出來幫助更多同行 總覽 本次分享內容涉及 Java、C語言、數據結構、jquery 這幾個方面,其中 java 部分除了 Spring,其他內容以項目實戰為主。 Java 這次分享的內容並不是基礎講解,而是直接上升到項目實戰,所以比較適合有一定的基礎。 數據 ...
  • #文件操作(寫入文件,讀取文件) #寫入文件 #1.打開文件(打開冰箱) fp = open('test.txt','w') print(fp,type(fp)) #2.寫入文件(把大象塞進去) fp.write('什麼時候你會覺得不再年輕了?') #3.關閉文件(關上冰箱) fp.close() ... ...
  • 通過指定下標的方式來獲得某一個數據元素,或者通過指定下標範圍來獲得一組序列的元素,這種訪問序列的方式叫做切片。有些地方也把它稱之為分片。 關於切片的工作方式,可以參考我之前寫的文章:Python中切片的工作原理 先從底層分析切片運算:list的切片,內部是調用__getitem__,__setite ...
  • qt中的進程使用需要用到頭文件:include<QProcess> 首先來看看需要用到的主要的函數 (1)進程的定義: (2)進程的初始化: (3)啟動進程 (4)使用進程讀取數據 (5)字元拼接QStringList的使用方法 頭函數:process.h 源文件:process.cpp ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...