Python基礎:輸入與輸出(I/O)_ZenDei技術網路在線

Python基礎:輸入與輸出(I/O)

-Advertisement-

來做一個NLP任務步驟為: 1.讀取文件； 2.去除所有標點符號和換行符，並把所有大寫變成小寫； 3.合併相同的詞，統計每個詞出現的頻率，並按照詞頻從大到小排序； 4.將結果按行輸出到文件 out.txt。代碼: import re import os,sys # 你不用太關心這個函數 def ...

來做一個NLP任務

　　步驟為: 　　　　1.讀取文件；　　　　2.去除所有標點符號和換行符，並把所有大寫變成小寫；　　　　3.合併相同的詞，統計每個詞出現的頻率，並按照詞頻從大到小排序；　　　　4.將結果按行輸出到文件 out.txt。　　代碼:

import re
import os,sys
# 你不用太關心這個函數
def parse(text):
　　# 使用正則表達式去除標點符號和換行符
　　text = re.sub(r'[^\w ]', '', text)

　　# 轉為小寫
　　text = text.lower()
　　# 生成所有單詞的列表
　　word_list = text.split(' ')
　　# 去除空白單詞
　　word_list = filter(None, word_list)

　　# 生成單詞和詞頻的字典
　　word_cnt = {}
　　for word in word_list:
　　　　if word not in word_cnt:
　　　　　　word_cnt[word] = 0
　　　　　　word_cnt[word] += 1
　　　　　　print(word_cnt.items())
　　# 按照詞頻排序
　　sorted_word_cnt = sorted(word_cnt.items(), key=lambda kv: kv[1], reverse=True)
　　return sorted_word_cnt

inFile = 'in.txt'
if not os.path.exists(inFile):
　　print(f'file {inFile} not exist')
　　sys.exit()
with open(inFile, 'r') as fin:
　　text = fin.read()

word_and_freq = parse(text)

outFile = 'out.txt'
with open(outFile, 'w') as fout:
　　for word, freq in word_and_freq:
　　　　try:
　　　　　　fout.write('{} {}\n'.format(word, freq))
　　　　except Exception as ex:
　　　　　　print(f"error in wirte {outFile},error msg:{ex}")

　　假如文件非常大，一次性讀取可能會導致記憶體崩潰，那麼可以用一行一行讀取的方法來實現：

from collections import defaultdict
import re,sys,os

inFile = 'in.txt'
if not os.path.exists(inFile):
　　print(f'file {inFile} not exist')
　　sys.exit()
f = open(inFile, mode="r", encoding="utf-8")
word_cnt = defaultdict(int) #defaultdict類的初始化函數接受一個類型作為參數，當所訪問的鍵不存在的時候，可以實例化一個值作為預設值

for line in f: #逐行讀取
　　line =re.sub(r'[^\w ]', '', line) #使用正則表達式去除標點符號和換行符
　　for word in filter(None, line.split(' ')): #按空格把單詞分組，並把空白單詞去掉
　　　　word_cnt[word] += 1

outFile = 'out.txt'
with open(outFile,'w') as fout:
　　for word, freq in sorted(word_cnt.items(), key=lambda kv: kv[1], reverse=True):
　　　　try:
　　　　　　fout.write(f'{word} {freq}\n')
　　　　except Exception as ex:
　　　　　　print(f"error in wirte {outFile},error msg:{ex}")

　　I/O需謹慎，所有I/O操作都應該進行錯誤處理，以防編碼漏洞。

Json 序列化與反序列化

　　json.dumps() 這個函數，接受 Python 的基本數據類型，然後將其序列化為 string；

　　json.loads() 這個函數，接受一個合法字元串，然後將其反序列化為 Python 的基本數據類型。

　　同樣的，Json序列化與反序列化時也要註意做錯誤處理，比如json.loads('123.2')會返回一個float類型。因此反序列化後需要判斷是否期望的類型：

original_params = json.loads(params_str)
t = type(original_params)
if t is not dict:
    print(f'is {t} not dict')

　　json.dumps() 與json.loads()例子：

import json,sys
params = {
'symbol': '123456',
'type': 'limit',
'price': 123.4,
'amount': 23
}
try:
    params_str = json.dumps(params)
except Exception as ex:
    print(f'error on dumps error msg:{ex}')
    sys.exit()

print('after json serialization') 
print('type of params_str = {}, params_str = {}'.format(type(params_str), params)) 
#after json serialization
#type of params_str = <class 'str'>, params_str = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}

original_params = json.loads(params_str)
t = type(original_params)
if t is not dict:
    print(f'is {t} not dict')
print('after json deserialization')
print('type of original_params = {}, original_params = {}'.format(type(original_params), original_params))
#after json deserialization 
#type of original_params = <class 'dict'>, original_params = {'symbol': '123456', 'type': 'limit', 'price': 123.4, 'amount': 23}

參考資料：

極客時間《Python核心技術與實戰》

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

php高併發之opcache

今天工作的時候接觸到客戶的一臺伺服器，業務邏輯比較簡單。估算pv在120w左右吧，用的是阿裡雲2c4g的伺服器。一大早就開始卡頓了，登陸伺服器後查看負載到了八九十。之後就想辦法調整一下吧。突然想起某位前輩說過的：開啟opcache吧，真的會變快的。於是我馬上就開始整，過程很簡單 1.進入php ...
Java環境的配置

對於Java初學者，可能會面對這麼一個問題，Java環境的配置，那麼廢話少說，直接開始。首先找到jdk的安裝包（我這邊以jdk1.8為例），雙擊安裝。到這邊我們的jdk已經成功安裝，但這樣我們有些同學的eclipse依然沒法使用，那是因為eclipse需要配置jdk才能正常使用，下麵開始配置jdk ...
C++中多態的概念和意義

1，函數重寫回顧： 1，父類中被重寫的函數依然會繼承給子類； 2，子類中重寫的函數將覆蓋父類中的函數； 1，重寫父類當中提供的函數是因為父類當中提供的這個函數版本不能滿足我們的需求，因此我們要重寫； 2，期望只要是子類對象，則調用子類當中的版本，而不是父類當中定義的函數版本； 3，通過作用域分辨符（ ...
死磕 java同步系列之自己動手寫一個鎖Lock

自己動手寫一個鎖需要哪些知識？自己動手寫一個鎖到底有多簡單？自己能不能寫出來一個完美的鎖？ ...
C++繼承中的同名覆蓋

1，父子間的衝突是由繼承帶來的，兩個類之間存在了繼承的關係，必然的會帶來一些問題，本文要討論的是父子之間成員變數或成員函數的命名問題； 2，思考： 1，子類中是否可以定義父類中的同名成員？ 1，可以，本文先編程解決這個問題； 2，這個問題就是同名覆蓋問題； 2，如果可以，如何區分？如果不可以，為什 ...
python正則表達式入門篇

 文章來源於：https://www.cnblogs.com/chuxiuhong/p/5885073.html Python 正則表達式入門（初級篇）本文主要為沒有使用正則表達式經驗的新手入門所寫。轉載請寫明出處引子首先說正則表達式是什麼？正則表達式，又稱正規表示 ...
[NOI2006] 網路收費

賊有意思的一道題。考慮把費用給轉化一下，觀察如果定義葉節點的狀態 {{A,0},{B,1}}，非葉節點的狀態 {{nA =nB,0},{nA define ls (x 1; int key=!(1&(set (dep i))); //相異有貢獻 if(l 1,len=r l+1; lq[dep]= ...
深入探究Java中hashCode()和equals()的關係

[toc] 一. 基礎: hashCode()和equals()簡介在學習hashCode()和equals()之間的關係之前, 我們有必要先單獨瞭解他倆自身的特點. equals()方法用於比較兩個對象是否相等, 它與"=="相等比較符有著本質的不同. 在萬物皆對象的Java體系中, 系統把判斷 ...