R語言學習 - 箱線圖(小提琴圖、抖動圖、區域散點圖)

来源:http://www.cnblogs.com/freescience/archive/2017/08/30/7454874.html
-Advertisement-
Play Games

箱線圖 箱線圖是能同時反映數據統計量和整體分佈,又很漂亮的展示圖。在2014年的Nature Method上有2篇Correspondence論述了使用箱線圖的好處和一個線上繪製箱線圖的工具。就這樣都可以發兩篇Nature method,沒天理,但也說明瞭箱線圖的重要意義。 下麵這張圖展示了Bar ...


箱線圖 箱線圖是能同時反映數據統計量和整體分佈,又很漂亮的展示圖。在2014年的Nature Method上有2篇Correspondence論述了使用箱線圖的好處和一個線上繪製箱線圖的工具。就這樣都可以發兩篇Nature method,沒天理,但也說明瞭箱線圖的重要意義。   下麵這張圖展示了Bar plot、Box plot、Volin plot和Bean plot對數據分佈的反應。從Bar plot上只能看到數據標準差或標準誤不同;Box plot可以看到數據分佈的集中性不同;Violin plot和Bean plot展示的是數據真正的分佈,尤其是對Biomodal數據的展示。   Box plot從下到上展示的是最小值,第一四分位數 (箱子的下邊線)、中位數 (箱子中間的線)、第三四分位數 (箱子上邊線)、最大值,具體解讀看這裡擴增子圖表解讀1箱線圖:Alpha多樣性 一步步解析箱線圖繪製 假設有這麼一個基因表達矩陣,第一列為基因名字,後面幾列為樣品名字,想繪製下樣品中基因表達的整體分佈。
profile="Name;2cell_1;2cell_2;2cell_3;4cell_1;4cell_2;4cell_3;zygote_1;zygote_2;zygote_3
A;4;6;7;3.2;5.2;5.6;2;4;3
B;6;8;9;5.2;7.2;7.6;4;6;5
C;8;10;11;7.2;9.2;9.6;6;8;7
D;10;12;13;9.2;11.2;11.6;8;10;9
E;12;14;15;11.2;13.2;13.6;10;12;11
F;14;16;17;13.2;15.2;15.6;12;14;13
G;15;17;18;14.2;16.2;16.6;13;15;14
H;16;18;19;15.2;17.2;17.6;14;16;15
I;17;19;20;16.2;18.2;18.6;15;17;16
J;18;20;21;17.2;19.2;19.6;16;18;17
L;19;21;22;18.2;20.2;20.6;17;19;18
M;20;22;23;19.2;21.2;21.6;18;20;19
N;21;23;24;20.2;22.2;22.6;19;21;20
O;22;24;25;21.2;23.2;23.6;20;22;21"
讀入數據並轉換為ggplot2需要的長數據表格式
profile_text <- read.table(text=profile, header=T, row.names=1, quote="",sep=";", check.names=F)
# 在melt時保留位置信息
# melt格式是ggplot2畫圖最喜歡的格式
# 好好體會下這個格式,雖然多占用了不少空間,但是確實很方便

library(ggplot2)
library(reshape2)
data_m <- melt(profile_text)
head(data_m)
  variable value
1  2cell_1     4
2  2cell_1     6
3  2cell_1     8
4  2cell_1    10
5  2cell_1    12
6  2cell_1    14
像往常一樣,就可以直接畫圖了。
# variable和value為矩陣melt後的兩列的名字,內部變數, variable代表了點線的屬性,value代表對應的值。
p <- ggplot(data_m, aes(x=variable, y=value),color=variable) + 
geom_boxplot() + 
theme(axis.text.x=element_text(angle=50,hjust=0.5, vjust=0.5)) +
theme(legend.position="none")
p
# 圖會存儲在當前目錄的Rplots.pdf文件中,如果用Rstudio,可以不運行dev.off()
dev.off()
箱線圖出來了,看上去還可以,再加點色彩
# variable和value為矩陣melt後的兩列的名字,內部變數, variable代表了點線的屬性,value代表對應的值。
p <- ggplot(data_m, aes(x=variable, y=value),color=variable) + 
geom_boxplot(aes(fill=factor(variable))) + 
theme(axis.text.x=element_text(angle=50,hjust=0.5, vjust=0.5)) +
theme(legend.position="none")
p
# 圖會存儲在當前目錄的Rplots.pdf文件中,如果用Rstudio,可以不運行dev.off()
dev.off()
再看看Violin plot
# variable和value為矩陣melt後的兩列的名字,內部變數, variable代表了點線的屬性,value代表對應的值。
p <- ggplot(data_m, aes(x=variable, y=value),color=variable) + 
geom_violin(aes(fill=factor(variable))) + 
theme(axis.text.x=element_text(angle=50,hjust=0.5, vjust=0.5)) +
theme(legend.position="none")
p
# 圖會存儲在當前目錄的Rplots.pdf文件中,如果用Rstudio,可以不運行dev.off()
dev.off()
還有Jitter plot (這裡使用的是ggbeeswarm包)
library(ggbeeswarm)
# 為了更好的效果,只保留其中一個樣品的數據
# grepl類似於Linux的grep命令,獲取特定模式的字元串
data_m2 <- data_m[grepl("_3", data_m$variable),]
 
# variable和value為矩陣melt後的兩列的名字,內部變數, variable代表了點線的屬性,value代表對應的值。
p <- ggplot(data_m2, aes(x=variable, y=value),color=variable) + 
geom_quasirandom(aes(colour=factor(variable))) + 
theme_bw() + theme(panel.grid.major = element_blank(),
panel.grid.minor = element_blank(), legend.key=element_blank()) +
theme(legend.position="none")
# 也可以用geom_jitter(aes(colour=factor(variable)))代替geom_quasirandom(aes(colour=factor(variable)))
# 但個人認為geom_quasirandom給出的結果更有特色

ggsave(p, filename="jitterplot.pdf", width=14, height=8, units=c("cm"))
繪製單個基因 (A)的箱線圖 為了更好的展示效果,下麵的矩陣增加了樣品數量和樣品的分組信息。
profile="Name;2cell_1;2cell_2;2cell_3;2cell_4;2cell_5;2cell_6;4cell_1;4cell_2;4cell_3;4cell_4;4cell_5;4cell_6;zygote_1;zygote_2;zygote_3;zygote_4;zygote_5;zygote_6
A;4;6;7;5;8;6;3.2;5.2;5.6;3.6;7.6;4.8;2;4;3;2;4;2.5
B;6;8;9;7;10;8;5.2;7.2;7.6;5.6;9.6;6.8;4;6;5;4;6;4.5"
 
profile_text <- read.table(text=profile, header=T, row.names=1, quote="",sep=";", check.names=F)

data_m = data.frame(t(profile_text['A',]))
data_m$sample = rownames(data_m)
# 只挑選顯示部分
# grepl前面已經講過用於匹配
data_m[grepl('_[123]', data_m$sample),]
獲得樣品分組信息 (這個例子比較特殊,樣品的分組信息就是樣品名字下劃線前面的部分)
# 可以利用strsplit分割,取出其前面的字元串
# R中複雜的輸出結果多數以列表的形式體現,在之前的矩陣操作教程中
# 提到過用str函數來查看複雜結果的結構,並從中獲取信息
group = unlist(lapply(strsplit(data_m$sample,"_"), function(x) x[1]))
data_m$group = group
data_m[grepl('_[123]', data_m$sample),]

如果沒有這個規律,也可以提到類似於下麵的文件,指定樣品所屬的組的信息。

sampleGroup_text="Sample;Group
zygote_1;zygote
zygote_2;zygote
zygote_3;zygote
zygote_4;zygote
zygote_5;zygote
zygote_6;zygote
2cell_1;2cell
2cell_2;2cell
2cell_3;2cell
2cell_4;2cell
2cell_5;2cell
2cell_6;2cell
4cell_1;4cell
4cell_2;4cell
4cell_3;4cell
4cell_4;4cell
4cell_5;4cell
4cell_6;4cell"

#sampleGroup = read.table(text=sampleGroup_text,sep="\t",header=1,check.names=F,row.names=1)
#data_m <- merge(data_m, sampleGroup, by="row.names")
# 會獲得相同的結果,腳本註釋掉了以免重覆執行引起問題

矩陣準備好了,開始畫圖了 (小提琴圖做例子,其它類似)

# 調整下樣品出現的順序
data_m$group <- factor(data_m$group, levels=c("zygote","2cell","4cell"))
# group和A為矩陣中兩列的名字,group代表了值的屬性,A代表基因A對應的表達值。
# 註意看修改了的地方
p <- ggplot(data_m, aes(x=group, y=A),color=group) + 
geom_violin(aes(fill=factor(group))) + 
theme(axis.text.x=element_text(angle=50,hjust=0.5, vjust=0.5)) +
theme(legend.position="none")
p
# 圖會存儲在當前目錄的Rplots.pdf文件中,如果用Rstudio,可以不運行dev.off()
長矩陣繪製箱線圖 常規矩陣繪製箱線圖要求必須是個方正的矩陣輸入,而有時想比較的幾個組裡面檢測的值數目不同。比如有三個組,GrpA組檢測了6個病人,GrpB組檢測了10個病人,GrpC組是12個正常人的檢測數據。這時就很難形成一個行位檢測值,列為樣品的矩陣,長表格模式就適合與這種情況。
long_table <- "Grp;Value
GrpA;10
GrpA;11
GrpA;12
GrpB;5
GrpB;4
GrpB;3
GrpB;2
GrpC;2
GrpC;3"
 
long_table <- read.table(text=long_table,sep="\t",header=1,check.names=F)

p <- ggplot(long_table, aes(x=Grp, y=Value),color=Grp) + 
geom_violin(aes(fill=factor(Grp))) + 
theme(axis.text.x=element_text(angle=50,hjust=0.5, vjust=0.5)) +
theme(legend.position="none")
p
長表格形式自身就是常規矩陣melt後的格式,這種用來繪製箱線圖就很簡單了,就不做解釋了。
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 上一篇分析了@SpringBootApplication註解,接下來從SpringApplication.run(Application.class, args);代碼開始一行行DEBUG進行分析 最終會創建一個SpringApplication的對象,然後調用它的run方法 SpringAppli ...
  • 啟動SpringBoot,需要在入口函數所在的類上添加@SpringBootApplication註解 我們來看一下@SpringBootApplication註解 從上面的代碼可以看出@SpringBootApplication = @Configuration + @EnableAutoConf ...
  • 我們知道字元有兩種初始化方式: String s1 = “abc”; String s2 = new String("def"); 這兩種有什麼區別呢?這時就需要我們看看String的在記憶體中是怎麼存儲的了。我們先看下麵的圖瞭解其在記憶體在是怎麼存儲的: 首先是 String s1 = “abc”;它 ...
  • BeautifulSoup是一個模塊,該模塊用於接收一個HTML或XML字元串,然後將其進行格式化,之後便可以使用他提供的方法進行快速查找指定元素,從而使得在HTML或XML中查找指定元素變得簡單。 1 from bs4 import BeautifulSoup 2 3 html_doc = """ ...
  • 一、數據類型 數據類型,相同類的值(指定類的對象)具有相同的功能,功能保存在類中(只有一份) 1、整數(int類) 1,2,3,4.......99.... bit_length() 當前十進位用二進位表示時,最少使用的位數 v = 15# 當前十進位用二進位表示時,最少使用的位數data = v. ...
  • 正則匹配的各種模式 1.擇一匹配(|) 擇一匹配用管道符號(|),也就是豎線表示。代表可以從多個模式中選擇一個,可用於分割正則表達式。例如: ABC | abc 表示即可以匹配 ABC,又可以匹配 abc。 2.匹配任意單個字元 3.從字元串起始或者結尾或者單詞邊界匹配 例如: \bthe,匹配以 ...
  • JSP的作用域一般是對於變數而言的,描述的是變數在某處是否有效(可用) 1.第一個作用域是page,只在當前頁面有效。也就是用戶請求的頁面有效,噹噹前頁面關閉或轉到其他頁面時,page對象將在響應回饋給客戶端後釋放。 2.第二個作用域是request,在當前請求中有效。request可以通過setA ...
  • 批處理(batch) >好比快遞員【不能一件一件的送快遞】 - 批處理指的是一次操作中執行多條SQL語句- 批處理相比於一次一次執行效率會提高很多 - 批處理主要是分兩步: 1.將要執行的SQL語句保存 2.執行SQL語句 - Statement和PreparedStatement都支持批處理操作, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...