前言 Gunicorn是一種流行的WSGI HTTP伺服器,常用於部署Django和Flask等Python Web框架程式。Gunicorn具有輕量級、高穩定性和高性能等特性,可以輕易提高Python WSGI App運行時的性能。 基本原理 Gunicorn採用了pre-fork模型,也就是一個 ...
目錄
關於 R 語言的簡單介紹
上一期 R 語言入門筆記裡面我簡單介紹了 R 語言的安裝和使用方法,以及各項避免踩坑的註意事項。我想把這個系列的筆記持續寫下去。
這份筆記只是我的 R 語言入門學習筆記,而不是一套 R 語言教程。換句話說:這份筆記不會事無巨細地介紹 R 語言的逐項細節,畢竟現在網上有關R的教程已經非常多了。這份筆記主要是針對 R 語言學習過程中各個容易掉進去的坑進行規避,以及根據我自身的經驗提供一些學習思路。
首先,R 語言是一門特殊的、專用於統計分析和建模的編程語言。一般情況下,我猜測大家學習R語言主要可能是因為出於以下的原因:
-
主要從事統計分析的工作,將R語言作為自己的主力編程語言
-
主力編程語言不足以應對複雜的統計分析問題,需要 R 的輔助
-
你不知道,因為你只是一個普通的苦逼醫學生,而身邊的醫學生都在使用 R
我個人比較符合第二種情況。我通常使用 Python,R 則是剛剛開始學習。因此我也希望能和這份筆記的讀者們共同進步。
到什麼地方去找 R 語言的教程
考慮到 R 語言是專為統計分析設計的編程語言,所以 R 語言的許多機制也和統計分析本身有關。
首先需要掌握一些有關統計分析的基本概念。一旦熟悉了統計分析的基本概念,就能基本瞭解R語言能夠幫助你完成哪些功能(統計分析需要的那些電腦功能,R 語言幾乎都可以實現。)
首先,如果是想要瞭解一些有關統計分析的方法論,可以試試看這個 Bilibili 網課:統計分析輕鬆入門(2023修訂版)。
關於 R 語言本身的學習,Bilibili 平臺上有一些不錯的網課可供參考:
教材的話,我找到的這個 四川師範大學研究生公選課《數據科學中的R語言》 看上去也很不錯。
R 語言的基本語法
略。
……別人的教程都寫過了,我幹嘛還要再寫一遍?
哎,跳過。
文件與路徑
為什麼要註意路徑問題?
初次體驗 R Studio 的時候,一大印象就是沒有非常輕便穩定的路徑管理,因為 R Studio 中終端並不會預設在工作空間里開啟。
相比較其他我常用的 IDE 而言,如果是在 Visual Studio Code 中移動工作空間,只需要直接關閉IDE然後直接在電腦上打開另一個文件夾,右鍵,選擇“在 Visual Studio Code 中打開”就可以很容易地在相應的工作目錄運行和調試程式。但是對於 R Studio,即使你把右下角的 Files
欄切換到了正確的工作區目錄(以防止新人不瞭解:就是你堆放數據文件和代碼腳本的文件夾),你的終端還是在原來的那個目錄裡面。你這個時候去敲R的實時交互命令讀取某個路徑下的數據,或者運行 R 的代碼文件讀取數據,就要報錯。
遇到這種情況,如果你不想在 R 命令行裡面通過敲命令再切換一次,可以考慮將所有 R 語言編程活動都變成一個個獨立的項目去管理。嘗試在 R Studio 右上角點擊 Files
,然後新建一個 R 項目,下次打開代碼直接點擊尾碼名為 *.Rproj
的項目文件,就能正確打開 R Studio 並切換正確的工作目錄。
關於文件格式
R Script 與 R Markdown
R語言的代碼最常見的主要有兩種文件格式:原生的R語言腳本文件(R Script),以及 R Markdown,一種R語言和Markdown相互交替書寫、分段運行的奇特代碼。R Script 和 R Markdown 相當於 Python 中的 *.py
腳本和 Jupyter Notebook 的關係。
R Script
R Script 是 R 語言的腳本,就是正常編寫代碼的方式。
主流的 R 語言的代碼規範可以參照 Google的R語言編碼風格指南(Google’s R Style Guide)。比如在 R Script 中 R 語言代碼可以分節,用小節標題前後四個 #
加空格分割的形式:
#### hello world ####
# This is a hello world program in R
print("hello, world")
如果你有一個R腳本文件(比如 hello.R
),你可以使用 source()
函數來載入它的內容到當前的工作空間中。這相當於在當前環境中運行這個文件的所有代碼。
# 假設你有一個 hello.R 文件
# 定義了 Hello() 函數
source("hello.R")
Hello()
這樣,definitions.R
中定義的所有函數和變數都會載入到當前的工作空間中,你可以在其他文件中使用它們。
有時你可能不希望載入所有定義到全局環境中,可以通過設置 source()
的 local
參數來控制代碼載入到局部環境中。
local_env <- new.env()
source("hello.R", local = local_env)
# 使用定義在 local_env 環境中的對象
local_env$Hello()
如果你的定義文件非常複雜或包含多個功能模塊,你可以考慮將其封裝為一個 R 包。這樣,你可以通過 library()
來引用包中的功能,並且包的組織結構可以幫助你更好地管理代碼。同樣地,對於下載的包也是使用 library()
導入。
還有一種方式是使用 sys.source()
,這裡剛剛入門,暫且不論。
R Markdown
為防止新人朋友們不知道——簡單的來講,Markdown 是用來給文章排版的,是一種極簡主義的排版工具,只有標題、引用、有序列表、無序列表、斜體、加粗、超鏈接和圖片這 8 個功能,Markdown 語法簡單易學,非常適合快速編寫和組織文檔,足以允許我們把 R 語言代碼和代碼說明性文章/報告放在一起排版了。
熟悉Jupyter Notebook的朋友可能會知道:Jupyter Notebook 實際上是一種通過網頁實時渲染的 JSON 文本,而R Markdown則是完完全全的純文本,只是在 R Markdown 中 Markdown 和 R 語言的代碼可以交替編寫。這就意味著R Markdown不能保存代碼運行的結果,但也不會因為巨大的圖片文件而變得臃腫。
另一方面,儘管 Jupyter Notebook 本身就具備 R 編程的功能,但實際上很多情況下 R Markdown 比 Jupyter Notebook 的體驗更好。如果你的電腦上正確配置過 \LaTeX 的話,理論上你可以通過 R Markdown 一鍵構建PDFL格式的報告或者論文;如果沒有 \LaTeX ,Word 或者 HTML 都是沒問題的。關於其詳細操作方法,以後的筆記裡面我們慢慢聊。
大家在新建 R Markdown 的時候生成的文件裡面就會自帶簡單的說明信息,事實上,我在這裡無需贅述。但是出於禮貌也方便大家理解,我簡記一筆:
簡單的來講:一個標準的 R Markdown 文件包含三個部分:YAML 頭部、Markdown 文檔和可運行的代碼片段。這裡逐一介紹:
YAML 頭部
YAML 頭部位於文件的最上方,用前後三個短橫線 ---
包裹。它主要用來設置文檔的元信息,例如標題、作者、日期、輸出格式等。
---
title: "R Markdown 入門示例"
author: "盒子online_1396529"
date: "2024-07-01"
output: pdf_document
---
R Markdown 可以被編譯成多種格式的文件,包括 PDF、HTML、Word 等,從而快速生成論文或統計分析報告。這個功能被稱為 knit。選擇輸出格式時,只需在 YAML 頭部指定 output
選項即可。每種輸出格式都可以進行進一步的定製,例如,選擇 PDF 輸出時,你可以使用 \LaTeX 語法來調整排版細節。
output:
pdf_document:
latex_engine: xelatex
toc: true # 添加目錄
number_sections: true # 章節自動編號
Markdown 文檔部分
Markdown 文檔部分是 R Markdown 的主體內容。在這裡,你可以使用 Markdown 語法編寫文本、標題、列表、引用、表格、圖片等。
## 標題示例
這是一個簡單的段落,你可以使用 **加粗** 和 *斜體* 來突出重點。
### 列表示例
- 無序列表項1
- 無序列表項2
- 無序列表項3
1. 有序列表項1
2. 有序列表項2
3. 有序列表項3
可運行的代碼塊
R Markdown 的一個重要功能是可以在 Markdown 文檔中嵌入 R 代碼塊,併在文檔編譯時自動運行這些代碼。代碼塊可以生成圖表、分析結果,並將這些內容直接嵌入到文檔中(這個功能簡直就是神了)!
代碼塊通常用上下兩排三個反引號 ```
包裹,併在第一排反引號後加上 {r}
指定這是一個 R 代碼塊(原生的 Markdown 語法在插入代碼片段的時候指定編程語言的名稱不加花括弧)。
我在這裡沒有辦法演示這個功能,因為這份筆記正是用 R Markdown 編寫的。如果我另起一行寫下 ```{r}
這段內容就會直接被識別成有待運行的 R 語言代碼塊,而代碼塊的格式也就被忽略掉不會插入筆記了。
R Markdown 結合了 Markdown 的簡潔和 R 語言的強大功能,適合用來編寫包含數據分析、報告、學術論文等內容的文檔。它讓編寫文檔的過程變得更加高效和靈活,無論是日常工作中的報告,還是學術研究中的論文,R Markdown 都是一個得力的工具。總的來講: 當我們新開始一個 R 語言數據分析項目並處於數據探究階段的時候,可以選擇在一開始就直接新建 R Markdown 上手寫,而不是一上來就編寫 R 腳本文件。