Python學習—基礎篇之文件操作

来源:https://www.cnblogs.com/cdc1216/archive/2019/01/21/10301536.html
-Advertisement-
Play Games

文件操作 文件操作也是編程中需要熟練掌握的技能,尤其是在後臺介面編寫和數據分析過程中,對各種類型的文件進行操作,獲取文件信息或者對信息進行存儲是十分重要的。本篇博客中將主要對常見的文本格式文件和Excel文件的相關操作進行介紹。 一、文本文件 1.1 文件操作流程 1、打開文件,獲得文件句柄,並賦值 ...


文件操作

文件操作也是編程中需要熟練掌握的技能,尤其是在後臺介面編寫和數據分析過程中,對各種類型的文件進行操作,獲取文件信息或者對信息進行存儲是十分重要的。本篇博客中將主要對常見的文本格式文件和Excel文件的相關操作進行介紹。

一、文本文件

1.1 文件操作流程

  1、打開文件,獲得文件句柄,並賦值給一個變數 ;

  2、通過句柄對文件進行相關操作;

  3、關閉文件

示例:

 1 # -*- coding:utf-8 -*-
 2 # author: cdc
 3 # date: 2018/8/23
 4 
 5 f = open('動物世界.txt','r',encoding='utf-8')
 6 content = f.read()
 7 print(content)
 8 f.close()
 9 
10 #***************運行結果*****************
11 '''
12 東打一下西戳一下
13 動物未必需要尖牙
14 示愛的方法有禮貌或是我管它
15 要將情人一口吞下
16 還要顯得溫文爾雅
17 螳螂委屈的展示舊傷疤
18 ......
19 '''

open函數中,第一個參數為文件存儲的位置+文件名(我在本地測試時文件與代碼同級),第二個參數為文件的操作模式,第三個參數為操作的編碼方式。

註意:文件是utf8保存的,打開文件時open函數是通過操作系統打開的文件,而win操作系統預設的是gbk編碼,所以直接打開會亂碼,需要encoding='utf8'。文件如果是gbk保存的,則直接打開即可。

1.2 文件的操作模式

========= ===============================================================
    Character Meaning
    --------- ---------------------------------------------------------------
    'r'       open for reading (default)
    'w'       open for writing, truncating the file first
    'x'       create a new file and open it for writing
    'a'       open for writing, appending to the end of the file if it exists
    'b'       binary mode
    't'       text mode (default)
    '+'       open a disk file for updating (reading and writing)
    'U'       universal newline mode (deprecated)
    ========= ===============================================================

示例:

 1 # -*- coding:utf-8 -*-
 2 # author: cdc
 3 # date: 2019/1/21
 4 
 5 # 只讀文件
 6 f = open('a.txt','r',encoding='utf-8')
 7 f.read()
 8 f.close()
 9 
10 # 只寫文件
11 # 註意: 1.若無該文件,寫文件操作時會自動創建;2.再次寫入時會從開頭寫,將原來的內容覆蓋
12 f = open('a.txt','w',encoding='utf-8')
13 f.write('helloll')
14 f.close()
15 
16 # 以追加模式寫入,會接著上一次的地方繼續寫
17 f = open('a.txt','a',encoding='utf-8')
18 f.write('123456879')
19 f.close()
20 
21 # 以讀寫的模式操作文件
22 f = open('a.txt','r+',encoding='utf-8')
23 f.read(5)
24 f.write('233333')
25 f.read()
26 f.close()
27 
28 # 以寫讀的模式操作文件
29 f = open('a.txt','w+')
30 print(f.read(5))         # 什麼都沒有,因為先格式化了文本
31 f.write('hello cdc')
32 print(f.read())          #還是read不到
33 f.seek(0)
34 print(f.read())
35 
36 # 以二進位方式讀文件
37 f = open('a.txt','rb')
38 content = f.read()
39 print(type(content))
40 f.close()
41 
42 # 以二進位方式寫文件
43 f = open('a.txt','wb')
44 f.write('hello alvin!'.encode())
45 f.close()

1.3 文件操作的具體方法

文件內容的讀取:

1 f.read()               # 將文件內容全部讀出來
2 f.read(5)              # 讀取五個位元組的內容
3 f.readline()           # 讀取一行
4 f.readlines()          # 將所有內容以換行符為準分割,形成一個列表對象

查看游標位置及游標操作:

1 #查看游標當前位置
2 f = open("a.txt","r",encoding="utf8")
3 print(f.tell())
4 print(f.read(5))
5 #一個中文預設為是三個字元
6 print(f.tell())
7 f.seek(0) #調整游標位置
8 print(f.read(5))
 1 f = open('a.txt', 'rb', )  
 2 f.read(3)
 3 f.seek(3)
 4 print(f.read(3))
 5 
 6 f.seek(3,1)          # 1為從當前位置,移動3個位元組
 7 print(f.read(3))
 8 
 9 f.seek(-4,2)        # 2為從從文件末尾算,向前移動4個位元組
10 print(f.read(3))
11 f.close()

flush操作:將緩衝區的內容刷新到終端

1 import sys,time
2 for i in range(30):
3     sys.stdout.write("*") #在緩衝區內寫內容
4     sys.stdout.flush() #將緩衝區內容刷新到終端顯示
5     print("*",end='',flush=True)
6     time.sleep(0.2)
7 f = open("小重山","w",encoding="utf8")
8 f.truncate()  #截斷操作,只保留游標前的內容,不設置參數時預設游標位置為0

1.4 with方法

為了避免打開文件後忘記關閉,可以通過管理上下文,即:

1 with open('a.txt','r',encoding='utf-8') as f:
2     f.readline()

如此方式,當with代碼塊執行完畢時,內部會自動關閉並釋放文件資源。with支持同時對多個文件的上下文進行管理,即:

1 with open('a.txt','r',encoding='utf-8') as f_read, open('b.txt','w',encoding='utf-8') as f_write:
2     f_read.readline()
3     f_write.write('hello')

1.5  踩坑啦!!!

對於文件的讀取操作,本人在公司遇到過不少的麻煩。。。由於每個人使用的文本編輯器不同,並且不是所有人都能關註到語言格式的問題,所以往往存儲的文件編碼格式五花八門,等到這些數據到我手裡需要處理的時候。。。我的內心    (▼ヘ▼#)     (╯°Д°)╯︵┻━┻

起初我打算自己寫一套腳本來識別各種語言格式並統一轉化成utf-8格式,無奈編碼格式實在是太多種了,很難判斷完全。後來我發現有一個非常巧妙的方法:

1 with open('filename','r',encoding='iso-8859-1') as f:
2     for line in f.readlines():
3         content = bytes.decode(line.encode('utf-8'))
4         print(type(content))

以'iso-8859-1'的編碼方式去讀取文件,無論哪種編碼格式的文件都可以以bytes類型的形式被讀取出來,接著只要再將bytes轉換成str,並以'utf-8'格式編碼就大功告成了!

還有一種情況,在已經知道文件是以'utf-8'編碼格式存儲的情況下,以'utf-8'方式去讀取還是報錯:

1 with open('a.txt','r',encoding='utf-8') as f:
2     for i in f.readlines():
3         print(i)
4         
5 # 結果報錯
6 #'\ufeffHello,World\n'

a.txt的文件編碼格式為utf-8,但是讀取的第一行前面會出現非法字元'\ufeff',後來發現是utf-8編碼有無BOM的原因造成的。BOM,即Byte Order Mark,就是位元組序標記,具體原理感興趣的童鞋可以谷歌瞭解一下!遇到這種情況只需要在讀取文件的時候如下操作即可:

1 with open('a.txt', 'r', encoding='utf-8-sig') as f:
2     for i in f.readlines():
3         print(i)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 靜兒就職的是新美大的基礎架構部門,做的是基於k8s的容器調度開發。k8s只是個工具,真正技術的上就是和網路打交道要多些。需要對網路中的數據流向有清晰的認識。大多數時間還是在做平臺,事情很跟業務很相似,也主要是工程。 之前記得有同事說過,設計的東西都被框架封裝好了,設計模式基本用不上。但是靜兒怎麼覺得 ...
  • 程式的三種基本結構 複合語句 將若幹個C語句使用花括弧{ }包括起來形成複合語句。花括弧內可以包含任何C語句, 其一般形式為: { 語句1; 語句2; …… 語句n; } 1.if條件分支語句 if語句有三種語法形式,構成三種分支結構。 1)流程(單選控制結構) 語句形式如下: if (表達式)語句 ...
  • 關於博客訪問量的問題,影響因素有很多,例如你的權重,你的博客數量,包括你的標題是否吸引人都是一個衡量的標準。 這些東西需要的是日積月累,今天我們從其中的一個維度入手:發帖時間。相信大家都明白,不論是csdn,博客園這種技術博客 還是今日頭條百度貼吧或者抖音快手這種娛樂論壇,都有自己的線上高峰期。例如 ...
  • 大概的樣子 這是大致的樣子~ 寫之前想說的 思路 這裡有一個問題,就是在使用ssh的時候會有一個等待用戶輸入密碼的過程。不能直接一條命令鏈接ssh。我們可以通過 expect 來解決。 不懂的可以百度一下,很簡單的。O(∩_∩)O哈哈~ 開始寫 首先 首先解決ssh等待輸入密碼的問題,首先 我們要安 ...
  • 1. 虎嗅網文章數據 寫在前面 今天繼續使用 爬取數據,很不幸,虎嗅資訊網被我選中了,網址為 爬的就是它的資訊頻道,本文章僅供學習交流使用,切勿用作其他用途。 常規操作,分析待爬取的頁面 拖拽頁面到最底部,會發現一個 按鈕,點擊之後,抓取一下請求,得到如下地址 2. 虎嗅網文章數據 分析請求 查閱該 ...
  • 背景:併發知識是一個程式員段位升級的體現,同樣也是進入BAT的必經之路,有必要把併發知識重新梳理一遍。 ConcurrentHashMap:在有了併發的基礎知識以後,再來研究concurrent包。普通的HashMap為非線程安全的,在高併發場景下要使用線程安全版本的ConcurrentHashMa ...
  • 一、裝飾器 二、迭代器 三、生成器 四、面向過程編程 xxxx ...
  • 剛剛開始學習PHP時,一直使用phpstudy,後面發現很多東西自己單獨配置安裝會理解更深刻,所以自己總結了一下windows下開發環境的部署教程。 以前經常在CSDN和博客園看別人的教程,今天才註冊博客園帳號,開通博客功能,第一次在網上分享自己的經驗,寫的不好的地方歡迎大家指正。 安裝Nginx ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...