有網友在 Quora 上提問,「你用 Python 寫過最牛逼的程式/腳本是什麼?」。本文摘編了 3 個國外程式員的多個小項目,含代碼。 Manoj Memana Jayakumar, 3000+ 頂 更新:憑藉這些腳本,我找到了工作!可看我在這個帖子中的回覆,《Has anyone got a j ...
有網友在 Quora 上提問,「你用 Python 寫過最牛逼的程式/腳本是什麼?」。本文摘編了 3 個國外程式員的多個小項目,含代碼。
Manoj Memana Jayakumar, 3000+ 頂
更新:憑藉這些腳本,我找到了工作!可看我在這個帖子中的回覆,《Has anyone got a job through Quora? Or somehow made lots of money through Quora?》
1. 電影/電視劇 字幕一鍵下載器
我們經常會遇到這樣的情景,就是打開字幕網站subscene 或者opensubtitles, 搜索電影或電視劇的名字,然後選擇正確的抓取器,下載字幕文件,解壓,剪切並粘貼到電影所在的文件夾,並且需把字幕文件重命名以匹配電影文件的名字。是不是覺得太無趣呢?對了,我之前寫了一個腳本,用來下載正確的電影或電視劇字幕文件,並且存儲到與電影文件所在位置。所有的操作步驟僅需一鍵就可以完成。懵逼了嗎?
請看這個 Youtube 視頻:https://youtu.be/Q5YWEqgw9X8
源代碼存放在GitHub: subtitle-downloader
更新:目前,該腳本支持多個字幕文件同時下載。步驟:按住 Ctrl ,選擇你想要為其下載字幕的多個文件 , 最後執行腳本即可
2. IMDb 查詢/電子錶格生成器
我是一個電影迷,喜歡看電影。我總是會為該看哪一部電影而困惑,因為我搜集了大量的電影。所以,我應該如何做才能消除這種困惑,選擇一部今晚看的電影?沒錯,就是IMDb。我打開 http://imdb.com,輸入電影的名字,看排名,閱讀和評論,找出一部值得看的電影。
但是,我有太多電影了。誰會想要在搜索框輸入所有的電影的名字呢?我肯定不會這樣做,尤其是我相信“如果某些東西是重覆性的,那麼它應該是可以自動化的”。因此,我寫了一個 python 腳本, 目的是為了使用 非官方的 IMDb API 來獲取數據。我選擇一個電影文件(文件夾),點擊右鍵,選擇‘發送到’,然後 點擊 IMDB.cmd (順便提一下,IMDB.cmd 這個文件就是我寫的 python 腳本),就是這樣。
我的瀏覽器會打開這部電影在 IMDb 網站上的準確頁面。
僅僅只需點擊一個按鍵,就可以完成如上操作。如果你不能夠瞭解這個腳本到底有多酷,以及它可以為你節省多少時間,請看這個 Youtube 視頻:https://youtu.be/JANNcimQGyk
從現在開始,你再也不需要打開你的瀏覽器,等待載入IMDb的頁面,鍵入電影的名字。這個腳本會幫你完成所有的操作。跟往常一樣,源代碼放在了GitHub:imdb ,並且附有操作說明。當然,由於這個腳本必須去掉文件或文件夾中的無意義的字元,比如“DVDRip, YIFY, BRrip”等,所以在運行腳本的時候會有一定比例的錯誤。但是經過測試,這個腳本在我幾乎所有的電影文件上都運行的很好。
2014-04-01更新:
許多人在問我是否可以寫一個腳本,可以發現一個文件夾中所有電影的詳細信息,因為每一次只能發現一個電影的詳細信息是非常麻煩的。我已經更新了這個腳本,支持處理整個文件夾。腳本會分析這個文件夾里的所有子文件夾,從 IMDb上抓取所有電影的詳細信息 ,然後打開一個電子錶格,根據IMDb 上的排名,從高到低降序排列所有的電影。這個表格中包含了 (所有電影)在 IMDb URL, 年份,情節,分類,獲獎信息,演員信息,以及其他的你可能在 IMBb找到的信息。下麵是腳本執行後,生成的表格範例:
Your very own personal IMDb database! What more can a movie buff ask for? ;)
Source on GitHub: imdb
你也可以有一個個人 IMDb 資料庫!一個電影愛好者還能夠要求更多嗎?:)
源代碼在 GitHub : imdb
3. theoatmeal.com 連載漫畫下載器
我個人超級喜歡 Matthew Inman 的漫畫。它們在瘋狂搞笑的同時,卻又發人深省。但是,我很厭煩重覆點擊下一個,然後才能閱讀每一個漫畫。另外,由於每一個漫畫都由多福圖片組成,所以手動下載這些漫畫是非常困難的。
基於如上原因,我寫了一個 python 腳本 ,用來從這個站點下載所有的漫畫。這個腳本利用 BeautifulSoup (http://www.crummy.com/software/B… ) 解析 HTML 數據, 所以在運行腳本前,必須安裝 BeautifulSoup。用於下載燕麥片(馬修.英曼的一部漫畫作品)的下載器已經上傳到GitHub:theoatmeal.com-downloader 。(漫畫)下載完後的文件夾是這樣的 :D
4. someecards.com 下載器
成功地從http://www.theoatmeal.com 下載了整部漫畫後,我在想是否我可以做同樣的事情 , 從另一個我喜歡的站點— 搞笑的,唯一的 http://www.someecards.com . 下載一些東西呢?
somececards 的問題是,圖片命名是完全隨機的,所有圖片的排放沒有特定的順序,並且一共有52 個大的類別, 每一個類別都有數以千計的圖片。
我知道,如果我的腳本是多線程的話,那將是非常完美的,因為有大量的數據需要解析和下載,因此我給每一個類別中的每一頁都分配一個線程。這個腳本會從網站的每一個單獨的分類下載搞笑的電子賀卡,並且把每一個放到單獨的文件夾。現在,我擁有這個星球上最好笑的電子賀卡私人收藏。下載完成後,我的文件夾是這樣的:
沒錯,我的私人收藏總共包括:52個類別,5036個電子賀卡。源代碼在這裡: someecards.com-downloader
編輯:很多人問我是否可以共用我下載的所有文件,(在這裡,我要說)由於我的網路不太穩定,我沒辦法把我的收藏上傳到網路硬碟,但是我已經上傳一個種子文件,你們可以在這裡下載:somecards.com Site Rip torrent
種下種子,傳播愛:)
Akshit Khurana,4400+ 頂
感謝 500 多個朋友在 Facebook 上為我送出的生日祝福
有三個故事讓我的21歲生日變的難忘,這是最後一個故事。我傾向於在每一條祝福下親自評論,但是使用 python 來做更好。
1…
2
31. # Thanking everyone who wished me on my birthday
4
52. import requests
6
73. import json
8
94.
10
115. # Aman s post time
12
136. AFTER = 1353233754
14
157. TOKEN =
16
178.
18
199. def get_posts():
20
2110. """Returns dictionary of id, first names of people who posted on my wall
22
2311. between start and end time"""
24
2512. query = ("SELECT post_id, actor_id, message FROM stream WHERE "
26
2713. "filter_key = others AND source_id = me() AND "
28
2914. "created_time > 1353233754 LIMIT 200")
30
3115.
32
3316. payload = { q : query, access_token : TOKEN}
34
3517. r = requests.get( https://graph.facebook.com/fql , params=payload)
36
3718. result = json.loads(r.text)
38
3919. return result[ data ]
40
4120.
42
4321. def commentall(wallposts):
44
4522. """Comments thank you on all posts"""
46
4723. #TODO convert to batch request later
48
4924. for wallpost in wallposts:
50
5125.
52
5326. r = requests.get( https://graph.facebook.com/%s %
54
5527. wallpost[ actor_id ])
56
5728. url = https://graph.facebook.com/%s/comments % wallpost[ post_id ]
58
5929. user = json.loads(r.text)
60
6130. message = Thanks %s :) % user[ first_name ]
62
6331. payload = { access_token : TOKEN, message : message}
64
6532. s = requests.post(url, data=payload)
66
6733.
68
6934. print "Wall post %s done" % wallpost[ post_id ]
70
7135.
72
7336. if __name__ == __main__ :
74
7537. commentall(get_posts())
76
77…
為了能夠順利運行腳本,你需要從Graph API Explorer(需適當許可權)獲得 token。本腳本假設特定時間戳之後的所有帖子都是生日祝福。
儘管對評論功能做了一點改變,我仍然喜歡每一個帖子。
當我的點贊數,評論數以及評論結構在 ticker(Facebook一項功能,朋友可以看到另一個朋友在做什麼,比如點贊,聽歌,看電影等) 中爆漲後,我的一個朋友很快發現此事必有蹊蹺。
儘管這個不是我最滿意的腳本,但是它簡單,快捷,有趣。
當我和 Sandesh Agrawal 在網路實驗室討論時,有了寫這個腳本的想法。為此,Sandesh Agrawal 耽擱了實驗室作業,深表感謝。
Tanmay Kulshrestha,3300+ 頂
好了,在我失去這個項目之前(一個豬一樣的朋友格式化了我的硬碟,我的所有代碼都在那個硬碟上)或者說,在我忘記這些代碼之前,我決定來回答這個問題。
整理照片
當我對圖像處理感興趣之後,我一直致力於研究機器學習。我寫這個有趣的腳本,目的是為了分類圖片,很像 Facebook 做的那樣(當然這是一個不夠精確的演算法)。我使用了 OpenCV 的人臉檢測演算法,“haarcascade_frontalface_default.xml”,它可以從一張照片中檢測到人臉。
你可能已經察覺到這張照片的某些地方被錯誤地識別為人臉。我試圖通過修改一些參數(來修正這一問題),但還是某些地方被錯誤地識別為人臉,這是由相機的相對距離導致的。我會在下一階段解決這一問題(訓練步驟)。
這個訓練演算法需要一些訓練素材,每個人需要至少需要100-120個訓練素材(當然多多益善)。我太懶了,並沒有為每一個人挑選照片,並把它們複製粘帖到訓練文件夾。所以,你可能已經猜到,這個腳本會打開一個圖片,識別人臉,並顯示每一個人臉(腳本會根據處於當前節點的訓練素材給每一個人臉預測一個名字)。伴隨著每次你標記的照片,Recognizer 會被更新,並且還會包含上一次的訓練素材。在訓練過程中,你可以增加新的名字。我使用 python 庫 tkinter 做了一個 GUI。因此,大多數時候,你必須初始化一小部分照片(給照片中的人臉命名),其他的工作都可以交給訓練演算法。因此,我訓練了 Recognizer ,然後讓它(Recognizer)去處理所有的圖片。
我使用圖片中包含的人的人名來命名圖片,(例如:Tanmay&*****&*****)。因此,我可以遍歷整個文件夾,然後可以通過輸入人名的方法來搜索圖片。
初始狀態下,當一個人臉還沒有訓練素材時(素材庫中還沒有包括這個人臉的名字),需要詢問他/她的名字。
我可以增加一個名字,像這個樣子:
當訓練了幾個素材後,它會像這個樣子:
最後一個是針對應對那些垃圾隨機方塊而使用的變通解決方案。
帶名字的最終文件夾。
所以,現在尋找圖片變得相當簡單。順便提一下,很抱歉(我)放大了這些照片。
1import cv2
2
3import sys
4
5import os,random,string
6
7#choices=[ Add a name ]
8
9import os
10
11current_directory=os.path.dirname(os.path.abspath(__file__))
12
13from Tkinter import Tk
14
15from easygui import *
16
17import numpy as np
18
19x= os.listdir(current_directory)
20
21new_x=[]
22
23testing=[]
24
25for i in x:
26
27if i.find( . )==-1:
28
29new_x+=[i]
30
31else:
32
33testing+=[i]
34
35x=new_x
36
37g=x
38
39choices=[ Add a name ]+x
40
41y= range(1,len(x)+1)
42
43def get_images_and_labels():
44
45global current_directory,x,y,g
46
47if x==[]:
48
49return (False,False)
50
51image_paths=[]
52
53for i in g:
54
55path=current_directory+ +i
56
57for filename in os.listdir(path):
58
59final_path=path+ +filename
60
61image_paths+=[final_path]
62
63# images will contains face images
64
65images = []
66
67# labels will contains the label that is assigned to the image
68
69labels = []
70
71for image_path in image_paths:
72
73# Read the image and convert to grayscale
74
75img = cv2.imread(image_path,0)
76
77# Convert the image format into numpy array
78
79image = np.array(img, uint8 )
80
81# Get the label of the image
82
83backslash=image_path.rindex( )
84
85underscore=image_path.index( _ ,backslash)
86
87nbr = image_path[backslash+1:underscore]
88
89t=g.index(nbr)
90
91nbr=y[t]
92
93# If face is detected, append the face to images and the label to labels
94
95images.append(image)
96
97labels.append(nbr)
98
99#cv2.imshow("Adding faces to traning set...", image)
100
101#cv2.waitKey(50)
102
103# return the images list and labels list
104
105return images, labels
106
107# Perform the tranining
108
109def train_recognizer():
110
111recognizer = cv2.createLBPHFaceRecognizer()
112
113images, labels = get_images_and_labels()
114
115if images==False:
116
117return False
118
119cv2.destroyAllWindows()
120
121recognizer.train(images, np.array(labels))
122
123return recognizer
124
125def get_name(image_path,recognizer):
126
127global x,choices
128
129#if recognizer== :
130
131# recognizer=train_recognizer()
132
133cascadePath = "haarcascade_frontalface_default.xml"
134
135faceCascade = cv2.CascadeClassifier(cascadePath)
136
137#recognizer=train_recognizer()
138
139x1=testing
140
141global g
142
143print image_path
144
145image = cv2.imread(image_path)
146
147img = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
148
149predict_image = np.array(img, uint8 )
150
151faces = faceCascade.detectMultiScale(
152
153img,
154
155scaleFactor=1.3,
156
157minNeighbors=5,
158
159minSize=(30, 30),
160
161flags = http://cv2.cv.CV_HAAR_SCALE_IMAGE
162
163)
164
165for (x, y, w, h) in faces:
166
167f= image[y:y+w,x:x+h]
168
169cv2.imwrite( temp.jpg ,f)
170
171im= temp.jpg
172
173nbr_predicted, conf = recognizer.predict(predict_image[y: y + h, x: x + w])
174
175predicted_name=g[nbr_predicted-1]
176
177print "{} is Correctly Recognized with confidence {}".format(predicted_name, conf)
178
179if conf>=140:
180
181continue
182
183msg= Is this +predicted_name
184
185reply = buttonbox(msg, image=im, choices=[ Yes , No ])
186
187if reply== Yes :
188
189reply=predicted_name
190
191directory=current_directory+ +reply
192
193if not os.path.exists(directory):
194
195os.makedirs(directory)
196
197random_name= .join(random.choice(string.ascii_uppercase + string.digits) for _ in range(7))
198
199path=directory+ +random_name+ .jpg
200
201cv2.imwrite(path,f)
202
203else:
204
205msg = "Who is this?"