Python提取文本文件（.txt）數據的方法

-Advertisement-

本文介紹基於Python語言，遍歷文件夾並從中找到文件名稱符合我們需求的多個.txt格式文本文件，並從上述每一個文本文件中，找到我們需要的指定數據，最後得到所有文本文件中我們需要的數據的合集的方法~ ...

本文介紹基於Python語言，遍歷文件夾並從中找到文件名稱符合我們需求的多個.txt格式文本文件，並從上述每一個文本文件中，找到我們需要的指定數據，最後得到所有文本文件中我們需要的數據的合集的方法。

首先，我們來明確一下本文的具體需求。現有一個文件夾，其中含有大量的.txt格式文本文件，如下圖所示；同時，這些文本文件中，文件名中含有Point欄位的，都是我們需要的文件，我們接下來的操作都是對這些我們需要的文件而言的；而不含有Point這個欄位的，那麼我們就不需要。

隨後，在每一個我們需要的文本文件（也就是文件名中含有Point欄位的文件）中，都具有著如下圖所示的數據格式。我們希望，基於第1列（紅色框內所示的列）數據（這一列數據表示波長），找到幾個指定波長數據所對應的行，並將這些行所對應的後5列數據都保存下來。

此外，前面也提到，文件名中含有Point欄位的文本文件是有多個的；因此希望將所有文本文件中，符合要求的數據行都保存在一個變數，且保存的時候也將文件名稱保存下來，從而知道保存的每一行數據，具體是來自於哪一個文件。

知道了需求，我們就可以開始代碼的書寫。其中，本文用到的具體代碼如下所示。

# -*- coding: utf-8 -*-
"""
Created on Fri Jul  7 23:39:43 2023

@author: fkxxgis
"""

import os
import pandas as pd

original_file_folder = "E:/03_Experiment/202306HuaiLai/HuaiLai_20230627_SpectralCurve"
result_file_path = "E:/03_Experiment/202306HuaiLai/HuaiLai_20230627_SpectralCurve/Result.csv"
target_wavelength = [490, 561, 665, 702, 863]

result_all_df = pd.DataFrame()

for file in os.listdir(original_file_folder):
    if file.endswith(".txt") and file[3] == "P":
        file_path = os.path.join(original_file_folder, file)
        df = pd.read_csv(file_path, delimiter = "\t")
        select_df = df[df["Wavelength"].isin(target_wavelength)]
        select_df.insert(0, "file_name", file)
        
        data_append = select_df.iloc[1 : , 2 : ]
        result_df = pd.DataFrame()
        result_df = pd.concat([select_df.iloc[[0]].reset_index(drop = True), pd.DataFrame(data_append.values.flatten()).transpose()], axis = 1)
        result_df.columns = range(result_df.shape[1])
        result_all_df = pd.concat([result_all_df, result_df], axis = 0, ignore_index = True)

上述代碼具體的含義如下所示。

首先，我們導入了需要使用的庫——os庫用於文件操作，而pandas庫則用於數據處理；接下來，我們定義了原始文件夾路徑 original_file_folder 和結果文件路徑 result_file_path。然後，我們創建一個空的DataFrame對象result_all_df，用於存儲所有處理後的結果。

再接下來，通過使用os.listdir()函數，我們遍歷指定文件夾中的文件。我們通過條件過濾，只選擇以.txt結尾且文件名的第四個字母是P的文件——這些文件就是我們需要的文件。隨後，對於每個滿足條件的文件，我們構建了文件的完整路徑file_path，並使用pd.read_csv()函數讀取文件的內容。在這裡，我們使用製表符作為分隔符，並將數據存儲在DataFrame對象df中。

然後，我們根據給定的目標波長列表target_wavelength，使用條件篩選出包含目標波長的數據行，並將文件名插入到選定的DataFrame中，即在第一列插入名為file_name的列——這一列用於保存我們的文件名。

接下來，在我們已經提取出來的數據中，從第二行開始，提取每一行從第三列到最後一列的數據，將其展平為一維數組，從而方便接下來將其放在原本第一行的後面（右側）。然後，我們使用pd.DataFrame()函數將展平的數組轉換為DataFrame對象；緊接著，我們使用pd.concat()函數將原本的第一行數據，和展平後的數據按列合併（也就是放在了第一行的右側），並將結果存儲在result_df中。

最後，我們將每個文件的處理結果按行合併到result_all_df中，通過使用pd.concat()函數，指定axis=0表示按行合併。由於我這裡的需求是，只要保證文本文件中的數據被提取到一個變數中就夠了，所以沒有將結果保存為一個獨立的文件。如果需要保存為獨立的.csv格式文件，大家可以參考文章多次複製Excel符合要求的數據行：Python批量實現。

運行上述代碼，即可看到保存我們提取出來的數據的結果的變數result_all_df的具體情況如下圖所示。可以看到，已經保存了我們提取出來的具體數據，以及數據具體來源文件的文件名稱；並且從一個文本文件中提取出來的數據，都是保存在一行中，方便我們後期的進一步處理。

至此，大功告成。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

lodash已死？radash庫方法介紹及源碼解析 —— 對象方法篇

theme: nico 寫在前面主頁有更多其他篇章的方法，歡迎訪問查看。本篇我們介紹radash中對象相關方法的使用和源碼解析。 assign：遞歸合併兩個對象使用說明功能說明：類似於 JavaScript 的 Object.assign 方法，用於將 override 對象的屬性和值複製到 ...
Vue 3 組件基礎與模板語法詳解

title: Vue 3 組件基礎與模板語法詳解 date: 2024/5/24 16:31:13 updated: 2024/5/24 16:31:13 categories: 前端開發 tags: Vue3特性 CompositionAPI Teleport Suspense Vue3安裝組件 ...
Python游戲編程：一步步用Python打造經典貪吃蛇小游戲

貪吃蛇作為一款極其經典且廣受歡迎的小游戲，是早期 Windows 電腦和功能手機（特別是諾基亞手機）流行度極高的小游戲，是當時功能手機時代最具代表性的游戲之一。游戲的基本規則和目標十分簡單，但卻極具吸引力，讓人欲罷不能。本博文我們用 Python 編寫屬於自己的貪吃蛇游戲，一起來體驗一下編程的樂趣與... ...
在Linux下管理MySQL的大小寫敏感性

當開發與Linux環境下MySQL資料庫交互的Java應用程式時，理解MySQL中的大小寫敏感性可以避免潛在的錯誤和問題。本指南深入探討了MySQL中的大小寫敏感設置，比較了5.7和8.0版本，併為Java開發者提供了最佳實踐。 1 理解MySQL中的大小寫敏感性預設情況下，MySQL在Windo ...
Spring6 對集成MyBatis 開發運用(附有詳細的操作步驟)

1. Spring6 對集成MyBatis 開發運用(附有詳細的操作步驟) @目錄1. Spring6 對集成MyBatis 開發運用(附有詳細的操作步驟)每博一文案2. 大概的實現步驟概述3. 詳細實現操作步驟4. Spring配置文件的 import，導入外部xml 配置5. 總結：6. 最 ...
白嫖免費圖床！CloudFlare R2太香了！

1 為啥要折騰搭建一個專屬圖床？技術大佬寫博客都用 md 格式，要在多平臺發佈，圖片就得有外鏈後續如博客遷移，國內博客網站如掘金，簡書，語雀等都做了防盜鏈，圖片無法遷移 2 為啥選擇CloudFlare R2 跳轉：https://dash.cloudflare.com/ 有白嫖額度免費 CD ...
實時識別關鍵詞API介面，將搜索結果提升至新的高度！

實時識別關鍵詞是一種能夠將搜索結果提升至新的高度的API介面。它可以幫助我們更有效地分析文本，並提取出關鍵詞，以便進行進一步的處理和分析。該介面是挖數據平臺提供的，有三種模式：精確模式、全模式和搜索引擎模式。不同的模式在分詞的方式上有所不同，適用於不同的場景。首先是精確模式。這種模式會儘量將句子 ...
Java JUC&多線程基礎完整版

Java JUC&多線程基礎完整版目錄Java JUC&多線程基礎完整版1、多線程的第一種啟動方式之繼承Thread類2、多線程的第二種啟動方式之實現Runnable介面3、多線程的第三種實現方式之實現Callable介面4、多線的常用成員方法5、線程的優先順序6、守護線程7、線程的讓出8、線 ...