[R語言]讀取文件夾下所有子文件夾中的excel文件,並根據分類合併。

来源:http://www.cnblogs.com/lzllovesyl/archive/2016/01/29/5170032.html
-Advertisement-
Play Games

解決的問題:需要讀取某個大文件夾下所有子文件夾中的excel文件,並彙總,彙總文件中需要包含的2部分的信息:1.該條數據來源於哪個子文件夾;2.該條數據來源於哪個excel文件。最終,按照子文件夾單獨保存彙總文件,或者只保存成一個彙總文件。 場景描述:抓取了各個APP的使用數據,分散地保存在各個文件


解決的問題:需要讀取某個大文件夾下所有子文件夾中的excel文件,並彙總,彙總文件中需要包含的2部分的信息:1.該條數據來源於哪個子文件夾;2.該條數據來源於哪個excel文件。最終,按照子文件夾單獨保存彙總文件,或者只保存成一個彙總文件。

場景描述:抓取了各個APP的使用數據,分散地保存在各個文件夾中。文件格式如下:

  • 第一級分類:文件夾名

  • 第二級分類:文件夾下xlsx文件名

  • 第三級分類:每個xlsx文件中每行(具體的每條數據),但其中並沒有該APP屬於的二級分類和一級分類,需要為每條數據添加二級分類和一級分類,並最終彙總到一個文件中。

解決方法一:

#作用:讀取每個文件夾下的excel,並將其合併成一個文件。
#共有3級:第一級:文件夾名,第二級:文件夾中的xlsx文件名,第三級:xlsx文件中的每行
#代碼後面註釋中若有:【修改】字樣,則表示如果要在你機器上運行該段代碼時,需要進行相應的修改。 ##########方法一:最終單獨保存在每個文件夾下 rm(list=ls()) setwd("E:/cnblogs") #設定工作目錄【修改】 library(xlsx) first_category_name = list.files("APP整理") #list.files命令得到"APP整理”文件夾下所有文件夾的名稱【修改】 dir = paste("./APP整理/",first_category_name,sep="") #用paste命令構建路徑變數dir,第一級目錄的詳細路徑【修改】 n = length(dir) #讀取dir長度,也就是:總共有多少個一級目錄 n_sub<-rep(0,n) n_sub<-as.data.frame(n_sub) n_sub<-t(n_sub) head(n_sub) #n_sub是每個一級目錄(文件夾)下有多少個文件,也就是:有多少個二級目錄,初始化為0,用於後面的操作 ########## for(i in 1:n){ #對於每個一級目錄(文件夾) b=list.files(dir[i]) #b是列出每個一級目錄(文件夾)中每個xlsx文件的名稱 n_sub[i]=length(b) #得到一級目錄(文件夾)下xlsx的文件個數:n_sub merge_1<-read.xlsx("E:/cnblogs/APP整理/xlsx文件樣例.xlsx",sheetIndex=1,encoding='UTF-8')# dim(merge_1) names(merge_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件列名,根據你具體情況修改【修改】 merge_1$second_category<-'second_category' merge_1$first_category<-'first_category' merge_1<-merge_1[1,-1] #這一段的目的是讀取一個xlsx文件樣例,得到一個初始的dataframe(不含數據),免除了後面重新建立datafram的麻煩,用於後面文件的rbind拼接 for(j in 1:n_sub[i]){ #對於每個一級目錄(文件夾)下的每個xlsx文件 new_1<-read.xlsx(file=paste(dir[i],'/',b[j],sep=''),sheetIndex=1,encoding='UTF-8') #讀取xlsx文件 names(new_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')【修改】 new_1<-new_1[-1,-1] #因為實際數據需要,刪除第一行和第一列(根據實際讀取xlsx文件的情況進行修改) new_1$second_category<-substr(b[j],1,4) #二級目錄的名稱是xlsx的文件名。 new_1$first_category<-first_category_name[i] #一級目錄的名稱是“文件夾名” merge_1<-rbind(merge_1,new_1) } write.xlsx(merge_1,paste(dir[i],'/merge.xlsx',sep=''),row.names = F,col.names= F)#單獨保存在每個文件夾下 }

解決方法二:

##########方法二:最終得到一個彙總的xlsx文件,在每個文件夾下並沒有保存單獨的合併文件
rm(list=ls())
setwd("E:cnblogs")      #設定工作目錄【修改】

library(xlsx)

first_category_name = list.files("APP整理")            #list.files命令得到"APP整理"文件夾下所有文件夾的名稱
dir = paste("./APP整理/",first_category_name,sep="")   #用paste命令構建路徑變數dir,第一級目錄的詳細路徑
n = length(dir)                                        #讀取dir長度,也就是:總共有多少個一級目錄                                                     

n_sub<-rep(0,n)
n_sub<-as.data.frame(n_sub)
n_sub<-t(n_sub)
head(n_sub)        #n_sub是每個一級目錄(文件夾)下有多少個文件,也就是:有多少個二級目錄,初始化為0,用於後面的操作

merge_1<-read.xlsx("E:/cnblogs/APP整理/xlsx文件樣例.xlsx",sheetIndex=1,encoding='UTF-8')
dim(merge_1)
names(merge_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件的列名【修改】
merge_1$second_category<-'second_category'
merge_1$first_category<-'first_category'
merge_1<-merge_1[1,-1]    #這一段的目的是讀取一個xlsx文件樣例,得到一個初始的dataframe(不含數據),免除了後面重新建立一個dataframe的麻煩,用於後面文件的rbind拼接

for(i in 1:n){         #對於每個一級目錄(文件夾)
  b=list.files(dir[i]) #b是列出每個一級目錄(文件夾)中每個xlsx文件的名稱
  n_sub[i]=length(b)   #得到一級目錄(文件夾)下xlsx的文件個數:n_sub
  
  for(j in 1:n_sub[i]){     #對於每個一級目錄(文件夾)下的每個xlsx文件
    new_1<-read.xlsx(file=paste(dir[i],'/',b[j],sep=''),sheetIndex=1,encoding='UTF-8') #讀取xlsx文件
    names(new_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件的文件名【修改】
    new_1<-new_1[-1,-1]     #因為實際數據需要,刪除第一行和第一列(根據實際讀取xlsx文件的情況進行修改)
    new_1$second_category<-substr(b[j],1,4)        #二級目錄的名稱是xlsx的文件名。
    new_1$first_category<-first_category_name[i]   #一級目錄的名稱是“文件夾名”
    merge_1<-rbind(merge_1,new_1)
  }
  # write.xlsx(merge_1,paste(dir[i],'/merge.xlsx',sep=''),row.names = F,col.names= F)
}
write.xlsx(merge_1,paste("./APP整理",'/merge.xlsx',sep='')
           ,row.names = F,col.names= F)#得到一個彙總文件,並沒有在每個文件夾下保存單獨的彙總文件

  

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 添加了mvc區域以後,可能出現以下錯誤... 找到多個與名為“Login”的控制器匹配的類型。如果為此請求(“{controller}/{action}/{id}”)提供服務的路由在搜索匹配此請求的控制器時沒有指定命名空間,則會發生此情況。如果是這樣,請通過調用含有 'namespaces' 參數的
  • 假設現在有一個學生類(Student) /// <summary> /// 學生類 /// </summary> public class Student { /// <summary> /// 名字 /// </summary> private string name; public string
  • 直接上代碼 1 public TestOne() 2 { 3 InitializeComponent(); 4 SaveFileDialog();//調用打開SaveFileDialog 保存對話框 5 } 6 7 #region 保存對話框 8 private void SaveFileDialo
  • 前提引用Log4Net.dll文件 1、 [assembly: log4net.Config.XmlConfigurator(ConfigFile = "Web.config", Watch = true)] 上述代碼寫到AssemblyInfo.cs文件中 2、Global.asax文件中,App
  • 如何實現刷新當前頁面呢?藉助js你將無所不能。 1,reload 方法,該方法強迫瀏覽器刷新當前頁面。語法:location.reload([bForceGet]) 參數: bForceGet, 可選參數, 預設為 false,從客戶端緩存里取當前頁。true, 則以 GET 方式,從服務端取最新的
  • 泛型約束更強大。比如支持有參構造函數、枚舉、委托: void Foo<T>() where T : new(string, int), enum, delegate 空值判斷符允許對屬性/欄位賦值: obj?.Name = "sdf"; //obj為null則什麼也不做 索引器支持泛型: publi
  • 頭文件 <cfenv>(fenv.h) c++11 浮點環境 這個頭文件聲明瞭一系列的函數和巨集去訪問浮點環境,以及特殊的類型. 浮點環境維護一系列的狀態標誌(status flags)和具體的控制模式. 具體浮點環境的內容依賴於其實現 , 但是狀態標誌通常包括浮點異常和它們的相關信息,並且控制模式至
  • 一、協同程式基礎 1.什麼是協同程式 協同程式與線程差不多,也就是一條執行序列,擁有自己獨立的棧、局部變數和指令指針(即可以保存變數的值和狀態),同時又與其他協同程式共用全局變數和其他大部分東西。 與線程的區別是具有多個線程的程式可以同時運行幾個線程,而程式任意時刻只能運行一個協同程式,並且協同程式
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...