R擁有許多用於存儲數據的對象類型,包括標量、向量、矩陣、數組、數據框、列表、因數。 1.標量:標量是只包含一個元素的向量 > a <- 1; # 數值型 > b <- "China"; # 字元型 > c <- TRUE; # 邏輯型 2.向量:向量用於存儲數值型、字元型或邏輯型數據的一維數組。通過 ...
R擁有許多用於存儲數據的對象類型,包括標量、向量、矩陣、數組、數據框、列表、因數。
1.標量:標量是只包含一個元素的向量
> a <- 1; # 數值型 > b <- "China"; # 字元型 > c <- TRUE; # 邏輯型
2.向量:向量用於存儲數值型、字元型或邏輯型數據的一維數組。通過利用c()函數來創建向量
> d <- c(1,2,3); > e <- c("China","USA"); > f <- c(T,F,F,T);
3.矩陣(matrix):矩陣是一個二維數組,每個元素都擁有相同的模式(數值型、字元型、邏輯型),一般通過函數matrix()來創建矩陣
matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL)
data:包含了矩陣的元素;
nrow 和 ncol:用於指定矩陣的行數和列數;
byrow=F:預設創建的矩陣按照列進行排列;
dimnames:創建矩陣時可以設置行和列的名稱(必須為列表形式);
> m1 <- matrix(1:8,nrow=4) #預設按列填充 > m1 [,1] [,2] [1,] 1 5 [2,] 2 6 [3,] 3 7 [4,] 4 8 #設置byrow=T,將元素按照行進行填充 > m2 <- matrix(1:8,nrow=4,byrow=T) > m2 [,1] [,2] [1,] 1 2 [2,] 3 4 [3,] 5 6 [4,] 7 8 # 設置矩陣行和列的名稱 > m3 <- matrix(1:8,nrow=4,byrow=T,dimnames=list(c("r1","r2","r3","r4"),c("c1","c2"))) > m3 c1 c2 r1 1 2 r2 3 4 r3 5 6 r4 7 8
4.數組(array):與矩陣類型,但是維度可以大於2,數組可以通過array()函數進行創建;數組中的數據也只能擁有一種模式(數據類型),如果數組中的數據有其他的數據類型,R會自動將所有數據轉換為同一模式
array(data = NA, dim = length(data), dimnames = NULL)
data:包含了數組中的數據;
dim:是一個數值型的向量,給出了各個維度下標的最大值;
dimnames:各個維度名稱標簽的列表;
> arr <- array(1:24,dim=c(4,3,2)) > arr , , 1 [,1] [,2] [,3] [1,] 1 5 9 [2,] 2 6 10 [3,] 3 7 11 [4,] 4 8 12 , , 2 [,1] [,2] [,3] [1,] 13 17 21 [2,] 14 18 22 [3,] 15 19 23 [4,] 16 20 24
5.數據框(data.frame):數據框類似於二維表格,包含行和列,是R中最常處理的數據結構。不同的列可以包含不同的模式,每一列數據的模式必須唯一;數據框可以通過函數data.frame()進行創建
data.frame(..., row.names = NULL, check.rows = FALSE, check.names = TRUE, stringsAsFactors = default.stringsAsFactors())
row.names:設置數據框行的名稱;
check.rows:預設為FALSE,檢查行的名稱和數量是否一致;
check.names:邏輯值,預設為TRUE,如果為TRUE,變數的名稱不能夠重覆,如果重覆,則R會自動進行轉換以保證列名不同;
stringsAsFactors :是否將字元串轉換為因數(factor)類型,stringsAsFactors 預設為TRUE,即default.stringsAsFactors()的值為TRUE,將字元串轉換為因數;
> g <- data.frame(a=c(1,2,3),a=c(4,5,6),row.names=c("n1","n2","n3"),check.names=T) > g a a.1 n1 1 4 n2 2 5 n3 3 6 > g["a.1"] #由於數據框g有重覆列名a,因為設置了check.names=T,R內部會自動將第二列的列名a轉換為a.1 a.1 n1 4 n2 5 n3 6
6.列表(list):是一個有序對象的集合,列表允許整合若幹對象到單個對象名下,可以通過list()函數進行創建
> k <- list(d=5:9,e="China") # 創建列表k,包括d和e兩個對象 > l <- list(title="mylist",a=1:3,b=matrix(1:8,nrow=2),c=c("one","two"),k) #創建列表l,l列表中包含了列表k(列表中也可以包含列表對象) > l $title [1] "mylist" $a [1] 1 2 3 $b [,1] [,2] [,3] [,4] [1,] 1 3 5 7 [2,] 2 4 6 8 $c [1] "one" "two" [[5]] [[5]]$d [1] 5 6 7 8 9 [[5]]$e [1] "China"
7.因數(factor):類別(名義型)變數和有序類別(有序型)變數在R中稱為因數。因數型數據在電腦內部存儲為整型數據,因數水平屬性將每個整型數據映射到一個因數水平上。因為整型數據占的存儲空間較少,因 此這種方式比字元串向量更節省存儲空間。
factor(x = character(), levels, labels = levels, exclude = NA, ordered = is.ordered(x), nmax = NA)
x:用於轉換為因數的字元向量數據;
levels:因數水平向量,因數型變數可以取得的所有值被稱為因數水平;
labels:字元型向量,labels與levels有相同的數量或者只有一個;
excelude:生成水平時要去除的水平;
ordered:預設為FALSE,設置為TRUE,表示有序型變數,用以確定levels 是否應該被視為有序的(按照給定的順序);
nmax: 設定水平數量的上限值
> x <- factor(x=c("middle","small","big","large"),levels=c("small","middle","big","large"),ordered=T) > x [1] middle small big large Levels: small < middle < big < large # R在輸出有序因數時會顯示因數水平的順序 > y <- factor(x=c("middle","small","big","large"),levels=c("small","middle","big","large"),ordered=T,labels=c(1,2,3,4)) > y [1] 2 1 3 4 Levels: 1 < 2 < 3 < 4 > z <- factor(x=c("middle","small","big","large"),levels=c("small","middle","big","large"),exclude=c("small","middle")) > z [1] <NA> <NA> big large # 由於去除了水平small和middle,所以原始數據中水平為small和middle的值輸出為NA Levels: big large > x.integer <- unclass(x) # 通過移除因數x的類屬性創建整型向量x.integer 註意此時因數x本身並沒有發生變化 > x.integer [1] 2 1 3 4 attr(,"levels") [1] "small" "middle" "big" "large" > class(x.integer) [1] "integer"