R語言學習筆記（二十二）：字元串處理中的函數對比

-Advertisement-

字元串處理中基本函數的使用 R自帶函數與stringr包函數對比 ...

字元串處理中基本函數的使用

R自帶函數與stringr包函數對比

> states <- row.names(USArrests)
> # 提取字元串子集
> substr(x = states, start = 1, stop = 4)
 [1] "Alab" "Alas" "Ariz" "Arka" "Cali" "Colo" "Conn" "Dela" "Flor" "Geor" "Hawa" "Idah" "Illi" "Indi" "Iowa" "Kans" "Kent"
[18] "Loui" "Main" "Mary" "Mass" "Mich" "Minn" "Miss" "Miss" "Mont" "Nebr" "Neva" "New " "New " "New " "New " "Nort" "Nort"
[35] "Ohio" "Okla" "Oreg" "Penn" "Rhod" "Sout" "Sout" "Tenn" "Texa" "Utah" "Verm" "Virg" "Wash" "West" "Wisc" "Wyom"
> abbreviate(states, minlength = 5)
       Alabama         Alaska        Arizona       Arkansas     California       Colorado    Connecticut       Delaware 
       "Alabm"        "Alask"        "Arizn"        "Arkns"        "Clfrn"        "Colrd"        "Cnnct"        "Delwr" 
       Florida        Georgia         Hawaii          Idaho       Illinois        Indiana           Iowa         Kansas 
       "Flord"        "Georg"        "Hawai"        "Idaho"        "Illns"        "Indin"         "Iowa"        "Kanss" 
      Kentucky      Louisiana          Maine       Maryland  Massachusetts       Michigan      Minnesota    Mississippi 
       "Kntck"        "Lousn"        "Maine"        "Mryln"        "Mssch"        "Mchgn"        "Mnnst"        "Mssss" 
      Missouri        Montana       Nebraska         Nevada  New Hampshire     New Jersey     New Mexico       New York 
       "Missr"        "Montn"        "Nbrsk"        "Nevad"        "NwHmp"        "NwJrs"        "NwMxc"        "NwYrk" 
North Carolina   North Dakota           Ohio       Oklahoma         Oregon   Pennsylvania   Rhode Island South Carolina 
       "NrthC"        "NrthD"         "Ohio"        "Oklhm"        "Oregn"        "Pnnsy"        "RhdIs"        "SthCr" 
  South Dakota      Tennessee          Texas           Utah        Vermont       Virginia     Washington  West Virginia 
       "SthDk"        "Tnnss"        "Texas"         "Utah"        "Vrmnt"        "Virgn"        "Wshng"        "WstVr" 
     Wisconsin        Wyoming 
       "Wscns"        "Wymng" 
> # 計算字元串長度
> nchar(states)
 [1]  7  6  7  8 10  8 11  8  7  7  6  5  8  7  4  6  8  9  5  8 13  8  9 11  8  7  8  6 13 10 10  8 14 12  4  8  6 12 12 14 12
[42]  9  5  4  7  8 10 13  9  7
> str_count(states)
 [1]  7  6  7  8 10  8 11  8  7  7  6  5  8  7  4  6  8  9  5  8 13  8  9 11  8  7  8  6 13 10 10  8 14 12  4  8  6 12 12 14 12
[42]  9  5  4  7  8 10 13  9  7
> str_length(states)
 [1]  7  6  7  8 10  8 11  8  7  7  6  5  8  7  4  6  8  9  5  8 13  8  9 11  8  7  8  6 13 10 10  8 14 12  4  8  6 12 12 14 12
[42]  9  5  4  7  8 10 13  9  7
> # 大寫和小寫
> tolower(states)     # 變為小寫
 [1] "alabama"        "alaska"         "arizona"        "arkansas"       "california"     "colorado"       "connecticut"   
 [8] "delaware"       "florida"        "georgia"        "hawaii"         "idaho"          "illinois"       "indiana"       
[15] "iowa"           "kansas"         "kentucky"       "louisiana"      "maine"          "maryland"       "massachusetts" 
[22] "michigan"       "minnesota"      "mississippi"    "missouri"       "montana"        "nebraska"       "nevada"        
[29] "new hampshire"  "new jersey"     "new mexico"     "new york"       "north carolina" "north dakota"   "ohio"          
[36] "oklahoma"       "oregon"         "pennsylvania"   "rhode island"   "south carolina" "south dakota"   "tennessee"     
[43] "texas"          "utah"           "vermont"        "virginia"       "washington"     "west virginia"  "wisconsin"     
[50] "wyoming"       
> toupper(states)     # 變為大寫
 [1] "ALABAMA"        "ALASKA"         "ARIZONA"        "ARKANSAS"       "CALIFORNIA"     "COLORADO"       "CONNECTICUT"   
 [8] "DELAWARE"       "FLORIDA"        "GEORGIA"        "HAWAII"         "IDAHO"          "ILLINOIS"       "INDIANA"       
[15] "IOWA"           "KANSAS"         "KENTUCKY"       "LOUISIANA"      "MAINE"          "MARYLAND"       "MASSACHUSETTS" 
[22] "MICHIGAN"       "MINNESOTA"      "MISSISSIPPI"    "MISSOURI"       "MONTANA"        "NEBRASKA"       "NEVADA"        
[29] "NEW HAMPSHIRE"  "NEW JERSEY"     "NEW MEXICO"     "NEW YORK"       "NORTH CAROLINA" "NORTH DAKOTA"   "OHIO"          
[36] "OKLAHOMA"       "OREGON"         "PENNSYLVANIA"   "RHODE ISLAND"   "SOUTH CAROLINA" "SOUTH DAKOTA"   "TENNESSEE"     
[43] "TEXAS"          "UTAH"           "VERMONT"        "VIRGINIA"       "WASHINGTON"     "WEST VIRGINIA"  "WISCONSIN"     
[50] "WYOMING"       
> # 符號替換
> chartr("Tt", "Uu", "AgCTcctTagct")
[1] "AgCUccuUagcu"
> str_replace_all("AgCTcctTagct", pattern = "T", replacement = "U")
[1] "AgCUcctUagct"
> # 字元串連接
> paste("control", 1:3, sep = "_")
[1] "control_1" "control_2" "control_3"
> str_c("control", 1:3, sep = "_")
[1] "control_1" "control_2" "control_3"
> x <- c("I love R", "I'm fascinated by Statisitcs", "I")
> # 包含匹配
> grep(pattern = "love", x = x)
[1] 1
> grep(pattern = "love", x = x, value = TRUE)
[1] "I love R"
> grepl(pattern = "love", x = x)
[1]  TRUE FALSE FALSE
> str_detect(string = x, pattern = "love")
[1]  TRUE FALSE FALSE
> # match返回第一個完全匹配的位置
> match(x = "I",table = x)
[1] 3
> "I" %in% x
[1] TRUE
> # 字元串拆分
> text <- "I love R.\nI'm fascinated by Statisitcs."
> cat(text)
I love R.
I'm fascinated by Statisitcs.
> strsplit(text, split = " ")
[[1]]
[1] "I"           "love"        "R.\nI'm"     "fascinated"  "by"          "Statisitcs."
> strsplit(text, split = "\\s")
[[1]]
[1] "I"           "love"        "R."          "I'm"         "fascinated"  "by"          "Statisitcs."
> str_split(text, pattern = "\\s")
[[1]]
[1] "I"           "love"        "R."          "I'm"         "fascinated"  "by"          "Statisitcs."
> # 匹配替換
> test_vector3 <- c("Without the vowels,We can still read the word.")
> sub(pattern = "[aeiou]",replacement = "-",x = test_vector3)
[1] "W-thout the vowels,We can still read the word."
> gsub(pattern = "[aeiou]",replacement = "-",x = test_vector3)
[1] "W-th--t th- v-w-ls,W- c-n st-ll r--d th- w-rd."
> str_replace_all(string = test_vector3, pattern = "[aeiou]", 
+                 replacement = "-")
[1] "W-th--t th- v-w-ls,W- c-n st-ll r--d th- w-rd."
> # 字元串定製輸出
> string <- "Each character string in the input is first split into\n paragraphs 
+ (or lines containing whitespace)"
> strwrap(x = string, width = 30)
[1] "Each character string in the" "input is first split into"    "paragraphs (or lines"         "containing whitespace)"      
> str_wrap(string = string, width = 30)
[1] "Each character string in\nthe input is first split\ninto paragraphs (or lines\ncontaining whitespace)"
> cat(str_wrap(string = string, width = 30))
Each character string in
the input is first split
into paragraphs (or lines
containing whitespace)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

CSS語法與JSON、JS對象比較

CSS（Cascading Style Sheets）規則由2個部分構成：選擇器，聲明。 selector｛declaration1;declaration2;declaration3;...declarationN｝ declaration由分號（；）隔開，表示為 property:value1 ...
CSS animation-delay:規定動畫何時開始

在CSS中animation-delay的屬性為規定動畫何時開始。主機吧本文詳細介紹下animation-delay的定義和用法、animation-delay的語法、animation-delay的實例。 animation-delay屬性實例：等待兩秒，然後開始動畫： animation-de ...
WebApiTestHelpPage

這是個什麼鬼，第一次見到的時候，我也不知道就花幾天時間看了下它的代碼在網上搜索WebApiTestHelpPage會出來很多相關頁面但是它們都是介紹怎麼用的，要麼就是怎麼添加註釋它是怎麼實現的，是什麼思想，為什麼這樣做，又是怎麼切入原來的系統並沒有講到如果你只是想知道怎麼讓WebApiTes ...
國際化資源管理模塊重構總結

從17年末到18年初花了差不多三周的時間，將項目中最重要的模塊之一--國際化資源管理，進行了徹底的重構。在掉了無數頭髮加了好多個晚上的班之後，終於改變了先前一個service解決所有邏輯的臃腫情況，代碼的可讀性，擴展性，模塊功能的擴展性以及可用性等性能獲得了很大的提升。我在這次重構中有著許許多多的思 ...
設計模式複習小結一(Strategy Pattern/Observer Pattern/Decorator Patter/Factory Pattern)

目錄：前言 1. Stratrgy Pattern 2. Observer Pattern 3. Decorator Pattern 4. Factory Pattern 4.1 FactoryPattern 4.2 AbstractFactoryPattern 總結 4.1 FactoryPat ...
設計模式（六大原則之單一職責）

概念：就一個類而言，應該僅有一個引起它變化的原因描述的意思是每個類都只負責單一的功能，切不可太多，並且一個類應當儘量的把一個功能做到極致。如果一個類承擔的職責過多，就等於把這些職責耦合在一起，這種耦合會導致脆弱的設計，即當其中一個職責發生變化時將會影響這個類完成其它職責的功能。以下代碼就沒有遵守該 ...
Java集合系列[3]----HashMap源碼分析

前面我們已經分析了ArrayList和LinkedList這兩個集合，我們知道ArrayList是基於數組實現的，LinkedList是基於鏈表實現的。它們各自有自己的優劣勢，例如ArrayList在定位查找元素時會優於LinkedList，而LinkedList在添加刪除元素時會優於ArrayLi ...
XML DTD語法瞭解

dtd語法元素： <!Element 元素名稱數據類型|包含內容> 數據類型： #PCDATA：普通文本使用的時候一般用()引起來包含內容：該元素下可以出現哪些元素，用()引起來符號： * 出現任意次？出現1次或者0次 + 出現至少1次 | 或者 () 分組，順序屬性：格式 ...