[R語言]讀取文件夾下所有子文件夾中的excel文件,並根據分類合併。

来源:http://www.cnblogs.com/lzllovesyl/archive/2016/01/29/5170032.html
-Advertisement-
Play Games

解決的問題:需要讀取某個大文件夾下所有子文件夾中的excel文件,並彙總,彙總文件中需要包含的2部分的信息:1.該條數據來源於哪個子文件夾;2.該條數據來源於哪個excel文件。最終,按照子文件夾單獨保存彙總文件,或者只保存成一個彙總文件。 場景描述:抓取了各個APP的使用數據,分散地保存在各個文件


解決的問題:需要讀取某個大文件夾下所有子文件夾中的excel文件,並彙總,彙總文件中需要包含的2部分的信息:1.該條數據來源於哪個子文件夾;2.該條數據來源於哪個excel文件。最終,按照子文件夾單獨保存彙總文件,或者只保存成一個彙總文件。

場景描述:抓取了各個APP的使用數據,分散地保存在各個文件夾中。文件格式如下:

  • 第一級分類:文件夾名

  • 第二級分類:文件夾下xlsx文件名

  • 第三級分類:每個xlsx文件中每行(具體的每條數據),但其中並沒有該APP屬於的二級分類和一級分類,需要為每條數據添加二級分類和一級分類,並最終彙總到一個文件中。

解決方法一:

#作用:讀取每個文件夾下的excel,並將其合併成一個文件。
#共有3級:第一級:文件夾名,第二級:文件夾中的xlsx文件名,第三級:xlsx文件中的每行
#代碼後面註釋中若有:【修改】字樣,則表示如果要在你機器上運行該段代碼時,需要進行相應的修改。 ##########方法一:最終單獨保存在每個文件夾下 rm(list=ls()) setwd("E:/cnblogs") #設定工作目錄【修改】 library(xlsx) first_category_name = list.files("APP整理") #list.files命令得到"APP整理”文件夾下所有文件夾的名稱【修改】 dir = paste("./APP整理/",first_category_name,sep="") #用paste命令構建路徑變數dir,第一級目錄的詳細路徑【修改】 n = length(dir) #讀取dir長度,也就是:總共有多少個一級目錄 n_sub<-rep(0,n) n_sub<-as.data.frame(n_sub) n_sub<-t(n_sub) head(n_sub) #n_sub是每個一級目錄(文件夾)下有多少個文件,也就是:有多少個二級目錄,初始化為0,用於後面的操作 ########## for(i in 1:n){ #對於每個一級目錄(文件夾) b=list.files(dir[i]) #b是列出每個一級目錄(文件夾)中每個xlsx文件的名稱 n_sub[i]=length(b) #得到一級目錄(文件夾)下xlsx的文件個數:n_sub merge_1<-read.xlsx("E:/cnblogs/APP整理/xlsx文件樣例.xlsx",sheetIndex=1,encoding='UTF-8')# dim(merge_1) names(merge_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件列名,根據你具體情況修改【修改】 merge_1$second_category<-'second_category' merge_1$first_category<-'first_category' merge_1<-merge_1[1,-1] #這一段的目的是讀取一個xlsx文件樣例,得到一個初始的dataframe(不含數據),免除了後面重新建立datafram的麻煩,用於後面文件的rbind拼接 for(j in 1:n_sub[i]){ #對於每個一級目錄(文件夾)下的每個xlsx文件 new_1<-read.xlsx(file=paste(dir[i],'/',b[j],sep=''),sheetIndex=1,encoding='UTF-8') #讀取xlsx文件 names(new_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')【修改】 new_1<-new_1[-1,-1] #因為實際數據需要,刪除第一行和第一列(根據實際讀取xlsx文件的情況進行修改) new_1$second_category<-substr(b[j],1,4) #二級目錄的名稱是xlsx的文件名。 new_1$first_category<-first_category_name[i] #一級目錄的名稱是“文件夾名” merge_1<-rbind(merge_1,new_1) } write.xlsx(merge_1,paste(dir[i],'/merge.xlsx',sep=''),row.names = F,col.names= F)#單獨保存在每個文件夾下 }

解決方法二:

##########方法二:最終得到一個彙總的xlsx文件,在每個文件夾下並沒有保存單獨的合併文件
rm(list=ls())
setwd("E:cnblogs")      #設定工作目錄【修改】

library(xlsx)

first_category_name = list.files("APP整理")            #list.files命令得到"APP整理"文件夾下所有文件夾的名稱
dir = paste("./APP整理/",first_category_name,sep="")   #用paste命令構建路徑變數dir,第一級目錄的詳細路徑
n = length(dir)                                        #讀取dir長度,也就是:總共有多少個一級目錄                                                     

n_sub<-rep(0,n)
n_sub<-as.data.frame(n_sub)
n_sub<-t(n_sub)
head(n_sub)        #n_sub是每個一級目錄(文件夾)下有多少個文件,也就是:有多少個二級目錄,初始化為0,用於後面的操作

merge_1<-read.xlsx("E:/cnblogs/APP整理/xlsx文件樣例.xlsx",sheetIndex=1,encoding='UTF-8')
dim(merge_1)
names(merge_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件的列名【修改】
merge_1$second_category<-'second_category'
merge_1$first_category<-'first_category'
merge_1<-merge_1[1,-1]    #這一段的目的是讀取一個xlsx文件樣例,得到一個初始的dataframe(不含數據),免除了後面重新建立一個dataframe的麻煩,用於後面文件的rbind拼接

for(i in 1:n){         #對於每個一級目錄(文件夾)
  b=list.files(dir[i]) #b是列出每個一級目錄(文件夾)中每個xlsx文件的名稱
  n_sub[i]=length(b)   #得到一級目錄(文件夾)下xlsx的文件個數:n_sub
  
  for(j in 1:n_sub[i]){     #對於每個一級目錄(文件夾)下的每個xlsx文件
    new_1<-read.xlsx(file=paste(dir[i],'/',b[j],sep=''),sheetIndex=1,encoding='UTF-8') #讀取xlsx文件
    names(new_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件的文件名【修改】
    new_1<-new_1[-1,-1]     #因為實際數據需要,刪除第一行和第一列(根據實際讀取xlsx文件的情況進行修改)
    new_1$second_category<-substr(b[j],1,4)        #二級目錄的名稱是xlsx的文件名。
    new_1$first_category<-first_category_name[i]   #一級目錄的名稱是“文件夾名”
    merge_1<-rbind(merge_1,new_1)
  }
  # write.xlsx(merge_1,paste(dir[i],'/merge.xlsx',sep=''),row.names = F,col.names= F)
}
write.xlsx(merge_1,paste("./APP整理",'/merge.xlsx',sep='')
           ,row.names = F,col.names= F)#得到一個彙總文件,並沒有在每個文件夾下保存單獨的彙總文件

  

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 添加了mvc區域以後,可能出現以下錯誤... 找到多個與名為“Login”的控制器匹配的類型。如果為此請求(“{controller}/{action}/{id}”)提供服務的路由在搜索匹配此請求的控制器時沒有指定命名空間,則會發生此情況。如果是這樣,請通過調用含有 'namespaces' 參數的
  • 假設現在有一個學生類(Student) /// <summary> /// 學生類 /// </summary> public class Student { /// <summary> /// 名字 /// </summary> private string name; public string
  • 直接上代碼 1 public TestOne() 2 { 3 InitializeComponent(); 4 SaveFileDialog();//調用打開SaveFileDialog 保存對話框 5 } 6 7 #region 保存對話框 8 private void SaveFileDialo
  • 前提引用Log4Net.dll文件 1、 [assembly: log4net.Config.XmlConfigurator(ConfigFile = "Web.config", Watch = true)] 上述代碼寫到AssemblyInfo.cs文件中 2、Global.asax文件中,App
  • 如何實現刷新當前頁面呢?藉助js你將無所不能。 1,reload 方法,該方法強迫瀏覽器刷新當前頁面。語法:location.reload([bForceGet]) 參數: bForceGet, 可選參數, 預設為 false,從客戶端緩存里取當前頁。true, 則以 GET 方式,從服務端取最新的
  • 泛型約束更強大。比如支持有參構造函數、枚舉、委托: void Foo<T>() where T : new(string, int), enum, delegate 空值判斷符允許對屬性/欄位賦值: obj?.Name = "sdf"; //obj為null則什麼也不做 索引器支持泛型: publi
  • 頭文件 <cfenv>(fenv.h) c++11 浮點環境 這個頭文件聲明瞭一系列的函數和巨集去訪問浮點環境,以及特殊的類型. 浮點環境維護一系列的狀態標誌(status flags)和具體的控制模式. 具體浮點環境的內容依賴於其實現 , 但是狀態標誌通常包括浮點異常和它們的相關信息,並且控制模式至
  • 一、協同程式基礎 1.什麼是協同程式 協同程式與線程差不多,也就是一條執行序列,擁有自己獨立的棧、局部變數和指令指針(即可以保存變數的值和狀態),同時又與其他協同程式共用全局變數和其他大部分東西。 與線程的區別是具有多個線程的程式可以同時運行幾個線程,而程式任意時刻只能運行一個協同程式,並且協同程式
一周排行
    -Advertisement-
    Play Games
  • 前言 推薦一款基於.NET 8、WPF、Prism.DryIoc、MVVM設計模式、Blazor以及MySQL資料庫構建的企業級工作流系統的WPF客戶端框架-AIStudio.Wpf.AClient 6.0。 項目介紹 框架採用了 Prism 框架來實現 MVVM 模式,不僅簡化了 MVVM 的典型 ...
  • 先看一下效果吧: 我們直接通過改造一下原版的TreeView來實現上面這個效果 我們先創建一個普通的TreeView 代碼很簡單: <TreeView> <TreeViewItem Header="人事部"/> <TreeViewItem Header="技術部"> <TreeViewItem He ...
  • 1. 生成式 AI 簡介 https://imp.i384100.net/LXYmq3 2. Python 語言 https://imp.i384100.net/5gmXXo 3. 統計和 R https://youtu.be/ANMuuq502rE?si=hw9GT6JVzMhRvBbF 4. 數 ...
  • 本文為大家介紹下.NET解壓/壓縮zip文件。雖然解壓縮不是啥核心技術,但壓縮性能以及進度處理還是需要關註下,針對使用較多的zip開源組件驗證,給大家提供個技術選型參考 之前在《.NET WebSocket高併發通信阻塞問題 - 唐宋元明清2188 - 博客園 (cnblogs.com)》講過,團隊 ...
  • 之前寫過兩篇關於Roslyn源生成器生成源代碼的用例,今天使用Roslyn的代碼修複器CodeFixProvider實現一個cs文件頭部註釋的功能, 代碼修複器會同時涉及到CodeFixProvider和DiagnosticAnalyzer, 實現FileHeaderAnalyzer 首先我們知道修 ...
  • 在軟體行業,經常會聽到一句話“文不如表,表不如圖”說明瞭圖形在軟體應用中的重要性。同樣在WPF開發中,為了程式美觀或者業務需要,經常會用到各種個樣的圖形。今天以一些簡單的小例子,簡述WPF開發中幾何圖形(Geometry)相關內容,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 在 C# 中使用 RabbitMQ 通過簡訊發送重置後的密碼到用戶的手機號上,你可以按照以下步驟進行 1.安裝 RabbitMQ 客戶端庫 首先,確保你已經安裝了 RabbitMQ 客戶端庫。你可以通過 NuGet 包管理器來安裝: dotnet add package RabbitMQ.Clien ...
  • 1.下載 Protocol Buffers 編譯器(protoc) 前往 Protocol Buffers GitHub Releases 頁面。在 "Assets" 下找到適合您系統的壓縮文件,通常為 protoc-{version}-win32.zip 或 protoc-{version}-wi ...
  • 簡介 在現代微服務架構中,服務發現(Service Discovery)是一項關鍵功能。它允許微服務動態地找到彼此,而無需依賴硬編碼的地址。以前如果你搜 .NET Service Discovery,大概率會搜到一大堆 Eureka,Consul 等的文章。現在微軟為我們帶來了一個官方的包:Micr ...
  • ZY樹洞 前言 ZY樹洞是一個基於.NET Core開發的簡單的評論系統,主要用於大家分享自己心中的感悟、經驗、心得、想法等。 好了,不賣關子了,這個項目其實是上班無聊的時候寫的,為什麼要寫這個項目呢?因為我單純的想吐槽一下工作中的不滿而已。 項目介紹 項目很簡單,主要功能就是提供一個簡單的評論系統 ...