[R語言]讀取文件夾下所有子文件夾中的excel文件，並根據分類合併。

-Advertisement-

解決的問題：需要讀取某個大文件夾下所有子文件夾中的excel文件，並彙總，彙總文件中需要包含的2部分的信息：1.該條數據來源於哪個子文件夾；2.該條數據來源於哪個excel文件。最終，按照子文件夾單獨保存彙總文件，或者只保存成一個彙總文件。場景描述：抓取了各個APP的使用數據，分散地保存在各個文件

解決的問題：需要讀取某個大文件夾下所有子文件夾中的excel文件，並彙總，彙總文件中需要包含的2部分的信息：1.該條數據來源於哪個子文件夾；2.該條數據來源於哪個excel文件。最終，按照子文件夾單獨保存彙總文件，或者只保存成一個彙總文件。

場景描述：抓取了各個APP的使用數據，分散地保存在各個文件夾中。文件格式如下：

第一級分類：文件夾名

第二級分類：文件夾下xlsx文件名

第三級分類：每個xlsx文件中每行（具體的每條數據），但其中並沒有該APP屬於的二級分類和一級分類，需要為每條數據添加二級分類和一級分類，並最終彙總到一個文件中。

解決方法一：

#作用：讀取每個文件夾下的excel，並將其合併成一個文件。
#共有3級：第一級：文件夾名，第二級：文件夾中的xlsx文件名，第三級：xlsx文件中的每行
#代碼後面註釋中若有：【修改】字樣，則表示如果要在你機器上運行該段代碼時，需要進行相應的修改。

##########方法一：最終單獨保存在每個文件夾下
rm(list=ls())
setwd("E:/cnblogs")                                    #設定工作目錄【修改】

library(xlsx)

first_category_name = list.files("APP整理")            #list.files命令得到"APP整理”文件夾下所有文件夾的名稱【修改】
dir = paste("./APP整理/",first_category_name,sep="")   #用paste命令構建路徑變數dir,第一級目錄的詳細路徑【修改】
n = length(dir)                                       #讀取dir長度，也就是：總共有多少個一級目錄                                                     

n_sub<-rep(0,n)
n_sub<-as.data.frame(n_sub)
n_sub<-t(n_sub)
head(n_sub)                                          #n_sub是每個一級目錄(文件夾)下有多少個文件，也就是：有多少個二級目錄，初始化為0，用於後面的操作

##########
for(i in 1:n){         #對於每個一級目錄(文件夾)
  b=list.files(dir[i]) #b是列出每個一級目錄(文件夾)中每個xlsx文件的名稱
  n_sub[i]=length(b)   #得到一級目錄(文件夾)下xlsx的文件個數:n_sub
  
  merge_1<-read.xlsx("E:/cnblogs/APP整理/xlsx文件樣例.xlsx",sheetIndex=1,encoding='UTF-8')#
  dim(merge_1)
  names(merge_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件列名，根據你具體情況修改【修改】
  merge_1$second_category<-'second_category'
  merge_1$first_category<-'first_category'
  merge_1<-merge_1[1,-1]    #這一段的目的是讀取一個xlsx文件樣例，得到一個初始的dataframe(不含數據)，免除了後面重新建立datafram的麻煩，用於後面文件的rbind拼接
  
  for(j in 1:n_sub[i]){     #對於每個一級目錄(文件夾)下的每個xlsx文件
    new_1<-read.xlsx(file=paste(dir[i],'/',b[j],sep=''),sheetIndex=1,encoding='UTF-8') #讀取xlsx文件
    names(new_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')【修改】
    new_1<-new_1[-1,-1]     #因為實際數據需要，刪除第一行和第一列（根據實際讀取xlsx文件的情況進行修改）
    new_1$second_category<-substr(b[j],1,4)        #二級目錄的名稱是xlsx的文件名。
    new_1$first_category<-first_category_name[i]   #一級目錄的名稱是“文件夾名”
    merge_1<-rbind(merge_1,new_1)
  }
  write.xlsx(merge_1,paste(dir[i],'/merge.xlsx',sep=''),row.names = F,col.names= F)#單獨保存在每個文件夾下
}

解決方法二：

##########方法二：最終得到一個彙總的xlsx文件，在每個文件夾下並沒有保存單獨的合併文件

rm(list=ls())
setwd("E:cnblogs")      #設定工作目錄【修改】

library(xlsx)

first_category_name = list.files("APP整理")            #list.files命令得到"APP整理"文件夾下所有文件夾的名稱
dir = paste("./APP整理/",first_category_name,sep="")   #用paste命令構建路徑變數dir,第一級目錄的詳細路徑
n = length(dir)                                        #讀取dir長度，也就是：總共有多少個一級目錄                                                     

n_sub<-rep(0,n)
n_sub<-as.data.frame(n_sub)
n_sub<-t(n_sub)
head(n_sub)        #n_sub是每個一級目錄(文件夾)下有多少個文件，也就是：有多少個二級目錄，初始化為0，用於後面的操作

merge_1<-read.xlsx("E:/cnblogs/APP整理/xlsx文件樣例.xlsx",sheetIndex=1,encoding='UTF-8')
dim(merge_1)
names(merge_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件的列名【修改】
merge_1$second_category<-'second_category'
merge_1$first_category<-'first_category'
merge_1<-merge_1[1,-1]    #這一段的目的是讀取一個xlsx文件樣例，得到一個初始的dataframe(不含數據)，免除了後面重新建立一個dataframe的麻煩，用於後面文件的rbind拼接

for(i in 1:n){         #對於每個一級目錄(文件夾)
  b=list.files(dir[i]) #b是列出每個一級目錄(文件夾)中每個xlsx文件的名稱
  n_sub[i]=length(b)   #得到一級目錄(文件夾)下xlsx的文件個數:n_sub
  
  for(j in 1:n_sub[i]){     #對於每個一級目錄(文件夾)下的每個xlsx文件
    new_1<-read.xlsx(file=paste(dir[i],'/',b[j],sep=''),sheetIndex=1,encoding='UTF-8') #讀取xlsx文件
    names(new_1)<-c('序號','APP','2016-01-11','2016-01-12','2016-01-13','2016-01-14','2016-01-15','2016-01-16','2016-01-17')#我的文件的文件名【修改】
    new_1<-new_1[-1,-1]     #因為實際數據需要，刪除第一行和第一列（根據實際讀取xlsx文件的情況進行修改）
    new_1$second_category<-substr(b[j],1,4)        #二級目錄的名稱是xlsx的文件名。
    new_1$first_category<-first_category_name[i]   #一級目錄的名稱是“文件夾名”
    merge_1<-rbind(merge_1,new_1)
  }
  # write.xlsx(merge_1,paste(dir[i],'/merge.xlsx',sep=''),row.names = F,col.names= F)
}
write.xlsx(merge_1,paste("./APP整理",'/merge.xlsx',sep='')
           ,row.names = F,col.names= F)#得到一個彙總文件，並沒有在每個文件夾下保存單獨的彙總文件

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

找到多個與名為“Login”的控制器匹配的類型

添加了mvc區域以後,可能出現以下錯誤... 找到多個與名為“Login”的控制器匹配的類型。如果為此請求(“{controller}/{action}/{id}”)提供服務的路由在搜索匹配此請求的控制器時沒有指定命名空間，則會發生此情況。如果是這樣，請通過調用含有 'namespaces' 參數的
使用反射、特性簡化代碼

假設現在有一個學生類（Student) /// <summary> /// 學生類 /// </summary> public class Student { /// <summary> /// 名字 /// </summary> private string name; public string
C# 如何提取SaveFileDialog的保存路徑

直接上代碼 1 public TestOne() 2 { 3 InitializeComponent(); 4 SaveFileDialog();//調用打開SaveFileDialog 保存對話框 5 } 6 7 #region 保存對話框 8 private void SaveFileDialo
Log4net 集成到MVC+EF框架

前提引用Log4Net.dll文件 1、 [assembly: log4net.Config.XmlConfigurator(ConfigFile = "Web.config", Watch = true)] 上述代碼寫到AssemblyInfo.cs文件中 2、Global.asax文件中，App
js刷新頁面方法大全

如何實現刷新當前頁面呢？藉助js你將無所不能。 1，reload 方法，該方法強迫瀏覽器刷新當前頁面。語法：location.reload([bForceGet]) 參數： bForceGet，可選參數，預設為 false，從客戶端緩存里取當前頁。true, 則以 GET 方式，從服務端取最新的
C#遐想/瞎想

泛型約束更強大。比如支持有參構造函數、枚舉、委托： void Foo<T>() where T : new(string, int), enum, delegate 空值判斷符允許對屬性/欄位賦值： obj?.Name = "sdf"; //obj為null則什麼也不做索引器支持泛型： publi
<cfenv>(fenv.h) _c++11

頭文件 <cfenv>(fenv.h) c++11 浮點環境這個頭文件聲明瞭一系列的函數和巨集去訪問浮點環境,以及特殊的類型. 浮點環境維護一系列的狀態標誌(status flags)和具體的控制模式. 具體浮點環境的內容依賴於其實現 , 但是狀態標誌通常包括浮點異常和它們的相關信息,並且控制模式至
四、Lua協同程式

一、協同程式基礎 1.什麼是協同程式協同程式與線程差不多，也就是一條執行序列，擁有自己獨立的棧、局部變數和指令指針（即可以保存變數的值和狀態），同時又與其他協同程式共用全局變數和其他大部分東西。與線程的區別是具有多個線程的程式可以同時運行幾個線程，而程式任意時刻只能運行一個協同程式，並且協同程式