前言 上網瀏覽網頁的時候,看見好的內容免不了要使用複製粘貼,但是我們看到的內容、心裡想要的內容和實際粘貼後的內容往往不一致。數據的獲取始於複製,終於粘貼,那麼問題來了,在這中間系統做了哪些操作,我們怎麼能控制它呢? 人生苦短,我用python,查閱相關資料之後發現有很多不一樣的實現方式,如利用內置c ...
前言
上網瀏覽網頁的時候,看見好的內容免不了要使用複製粘貼,但是我們看到的內容、心裡想要的內容和實際粘貼後的內容往往不一致。數據的獲取始於複製,終於粘貼,那麼問題來了,在這中間系統做了哪些操作,我們怎麼能控制它呢?
人生苦短,我用python,查閱相關資料之後發現有很多不一樣的實現方式,如利用內置ctypes模塊、tk模塊,第三方模塊如跨平臺的pyperclip模塊、clipboard模塊、pywin.win32clipboard模塊等等,大部分都封裝好了簡潔易用的高級介面,方便我們直接使用。
基於強迫症的心理,本文分析比較了幾種主流的方式,對他們逐一進行源碼分析、讀寫性能實測,最後選擇了讀寫速度最快的一種做出一個實時剪切板監控小案例,以供大家參考。
小案例實現的功能如下:
- **實時監測ctrl+c剪切板寫入事件,去除剪切板中指定字元或文本,如某些文字的尾碼 (¬_¬)瞄。**
- 使用正則對某些文本進行智能替換,如將python2格式的代碼轉換為python3格式。
方式一:調用第三方pyperclip模塊
In [1]: import pyperclip
In [2]: data = pyperclip.paste()
In [3]: data
Out[3]: "print 'Hello World'\r\n————————————————\r\n版權聲明:本文為CSDN博主「...」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。\r\n原文鏈接:https://blog.csdn.net/.../article/details/..."
In [4]: data = data[7:12]
In [5]: pyperclip.copy(data)
In [6]: pyperclip.paste()
Out[6]: 'Hello'
源碼調用: 內置ctypes模塊中的ctypes.windll.user32介面編寫,和pandas包的代碼一致,代碼位置:pandas.io.clipboard.windows,代碼引用如下
import ctypes
windll = ctypes.windll
safeGetClipboardData = CheckedCall(windll.user32.GetClipboardData)
safeGetClipboardData.argtypes = [UINT]
safeGetClipboardData.restype = HANDLE
safeSetClipboardData = CheckedCall(windll.user32.SetClipboardData)
safeSetClipboardData.argtypes = [UINT, HANDLE]
safeSetClipboardData.restype = HANDLE
優點: 跨平臺,介面調用方便簡潔
缺點: 剪切板的數據格式只支持utf-8文本,頻繁讀寫速度較慢
方式二:調用第三方win32clipboard模塊
In [1]: import win32clipboard
...:
...: def clipboard_get():
...: """獲取剪貼板數據"""
...: win32clipboard.OpenClipboard()
...: data = win32clipboard.GetClipboardData()
...: win32clipboard.CloseClipboard()
...: return data
...:
...: def clipboard_set(data):
...: """設置剪貼板數據"""
...: win32clipboard.OpenClipboard()
...: win32clipboard.SetClipboardData(13, data)
...: win32clipboard.CloseClipboard()
...: return True
...:
In [2]: data = clipboard_get()
In [3]: data
Out[3]: "print 'Hello World'\r\n————————————————\r\n版權聲明:本文為CSDN博主「...」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上 原文出處鏈接及本聲明。\r\n原文鏈接:https://blog.csdn.net/.../article/details/..."
In [4]: clipboard_set(data[7:12])
Out[4]: True
In [5]: clipboard_get()
Out[5]: 'Hello'
源碼調用: C源碼封裝,python介面調用如下
def GetClipboardData(*args, **kwargs): # real signature unknown
pass
def SetClipboardData(*args, **kwargs): # real signature unknown
pass
優點: 原生C封裝讀寫速度最快,支持多種剪切板數據格式
缺點: 只適用於windows平臺,高頻率讀寫會報錯需要小心處理,utf-8格式之外的數據格式需要熟悉winuser.h庫自行設計編寫
方法三:調用內置tkinter模塊
In [1]: from tkinter import *
...:
...: r = Tk()
In [2]: data = r.clipboard_get()
In [3]: data
Out[3]: "print 'Hello World'\n————————————————\n版權聲明:本文為CSDN博主「...」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文 出處鏈接及本聲明。\n原文鏈接:https://blog.csdn.net/.../article/details/..."
In [4]: r.clipboard_append(data[7:12])
In [5]: r.clipboard_get()
Out[6]: 'Hello'
註意: 在win10系統測試後發現,使用tkinter模塊只能獲取剪切板數據,不能將數據寫入剪切板,外部調用clipboard_board方法時,系統剪切板進程會被tk接管鎖死,此時在其他的應用按ctrl+v,粘貼的應用會直接處於卡死的狀態,或者粘貼後內容為空。
如果還是通過Tk()對象將數據寫入剪切板,只能採取下麵的方法,設置延遲銷毀Tk對象,系統剪切板數據才會被更新,否則內容還是為空(實測如果設置0.2秒以內的頻率讀取,剪切板還是為空,這就很雞肋了):
from tkinter import *
import time
r = Tk()
r.withdraw()
r.clipboard_clear()
r.clipboard_append('some string')
r.update()
time.sleep(.2)
r.update()
r.destroy()
源碼調用: C源碼封裝,python介面調用如下
# 讀取剪切板數據:
_tkinter.tkapp('clipboard', 'get')
# 寫入剪切板數據:
_tkinter.tkapp('clipboard', 'append')
剪切板讀寫速度測試結果
實時監控小案例:
import win32clipboard
import re
import time
def clipboard_get():
"""獲取剪貼板數據"""
win32clipboard.OpenClipboard()
data = win32clipboard.GetClipboardData(win32clipboard.CF_UNICODETEXT)
win32clipboard.CloseClipboard()
return data
def clipboard_set(data):
"""設置剪貼板數據"""
win32clipboard.OpenClipboard()
win32clipboard.EmptyClipboard()
win32clipboard.SetClipboardData(win32clipboard.CF_UNICODETEXT, data)
win32clipboard.CloseClipboard()
# 初始化替換字元列表,相比於正則使用replace函數進行單字元替換更快
char_list = [('(', '('),
(')', ')'),
('“', '"'),
('”', '"'),
('‘', '\''),
('’', '\''),
('print ', 'print '),
('版權聲明:本文為CSDN', '版權聲明:本文為CSDN'),
]
# 預編譯正則替換匹配表達式
# 匹配python2格式的 print函數文本
sub_print = re.compile(r'\bprint\s+(.+)')
# 匹配csdn複製自帶的版權聲明尾碼文本
sub_csdn = re.compile(r'—+\s+版權聲明:本文為CSDN.*\s+原文鏈接.*')
# 指定場景 sub替換函數:python2格式的 print函數 替換為python3格式
def sub_fn(s):
return 'print(' + s.group(1).strip() + ')\r\n'
# 判斷如果沒有要替換的字元則返回None,有則執行替換操作,先進行字元列表replace,再執行reg.sub(sub_fn, txt)
def char_replace_reg_sub(txt):
new_txt = txt
# 對字元列表中字元 逐一判斷,如果字元在文本中 則replace替換,如果都不在 則return None,不用再進行替換操作
i = 0
for old_char, new_char in char_list:
if old_char in new_txt:
i += 1
new_txt = new_txt.replace(old_char, new_char)
if i == 0:
return None
print('-' * 150, '\n【After char replace】:', new_txt)
# 對指定場景替換 使用正則re.sub
new_txt = sub_print.sub(sub_fn, new_txt)
new_txt = sub_csdn.sub('', new_txt)
print('【After sub replace:】', new_txt)
return new_txt
def main():
"""後臺腳本:每隔0.2秒,讀取剪切板文本,檢查有無指定字元或字元串,如果有則執行替換"""
# recent_txt 存放最近一次剪切板文本,初始化值只多執行一次paste函數讀取和替換
recent_txt = clipboard_get()
replaced_txt = char_replace_reg_sub(recent_txt)
clipboard_set(recent_txt if replaced_txt is None else replaced_txt)
while True:
# txt 存放當前剪切板文本
txt = clipboard_get()
# 剪切板內容和上一次對比如有變動,再進行內容判斷,判斷後如果發現有指定字元在其中的話,再執行替換
if txt != recent_txt:
# print(f'txt:{txt}')
new_txt = char_replace_reg_sub(txt) # 沒查到要替換的子串,返回None
if new_txt is not None:
clipboard_set(new_txt)
# 更新 recent_txt 為替換之後的文本,便於下次與 txt 剪切板文本對比,判斷內容有無更新
recent_txt = new_txt
# 檢測間隔(延遲0.2秒)
time.sleep(0.2)
if __name__ == '__main__':
main()
運行效果:
-----------------------------------------------------------------------------------------
【Copy text】:
print 'Hello World' \r\n————————————————\r\n版權聲明:本文為CSDN博主「...」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上 原文出處鏈接及本聲明。\r\n原文鏈接:https://blog.csdn.net/.../article/details/...)
-----------------------------------------------------------------------------------------
【After replace:】:
print('Hello World')
-----------------------------------------------------------------------------------------
參考鏈接:
Stack Overflow:https://stackoverflow.com/questions/579687/how-do-i-copy-a-string-to-the-clipboard-on-windows-using-python