文章出自:聽雲博客 這是我去年十一回來就開始計劃的實驗,重裝系統之後將QQ存儲文件的文件夾放到了我的備份盤裡, QQ會把你的聊天記錄和圖片分開存儲,而且群組和好友也是分開存放在兩個文件夾里的,好友G:\Tencent file\<your qq number>\Image\C2C,群組G:\Tenc ...
文章出自:聽雲博客
這是我去年十一回來就開始計劃的實驗,重裝系統之後將QQ存儲文件的文件夾放到了我的備份盤裡, QQ會把你的聊天記錄和圖片分開存儲,而且群組和好友也是分開存放在兩個文件夾里的,好友G:\Tencent file\<your qq number>\Image\C2C,群組G:\Tencent file\<your qq number>\Image\Group。儘量保證電腦長時間開機,並且保證QQ一直線上,這樣,每當QQ群里接受到消息之後,圖片就被保存在了你的本地硬碟上。所以有人在群里爆了照再撤回其實是可以找到的,偷笑偷笑,只要找到Group文件夾里最新的照片就好了。
隨著圖片越來越多,QQ會把近期緩存的圖片整理到一個新的文件夾里去,每到4000張圖的時候就整理一次。我加了90多個QQ群,一半以上是千人群,6個月之後我的文件夾就變成了這個樣子。
緩存了將近7個G的圖片,一共十萬五千張。
這次不討論聚合和圖片分類的問題,我們簡單的統計一下直接從圖片文件所攜帶的信息。這些圖片一共有三種主要的格式, JPEG,PNG,GIF,通常就是,照片,截圖,表情包~~
比例如下:
除了簡單的類型統計呢,我們還可以根據圖片的創建時間來統計信息,當然在登錄QQ的一開始,也會因為大量的接受圖片而導致一個時間序列上圖片數量出現極值。
時間序列尺度在周,分鐘,和天的變化情況就顯而易見了。
哦,周末人們在網上竟然比平時少了一半,可能是活躍的人少了,也可能是活躍的時間少了,但是我認為,大家在家睡到12點的可能性更大一點,誰叫我加的都是工科群。
從每天的數據中可以看到,竟然到了1點多夜生活才結束。然後第二天6點多陸續起床,12點又開始去吃飯去了,有多少人還在加班,等等,圖像上都顯示的清清楚楚。
再看一年中的數據,好像周期性很強烈,一到周末大家就睡覺了嘛?那麼,二月五號左右我們在幹嗎?怎麼那麼低?原來是在過年。那怎麼有兩天是0?好吧,我在往返的火車上。
等等,如果PNG代表截圖,那可能表示大家在討論問題。如果GIF多一些,可能表示大家在鬥圖水群啊!我好像找到了你們不工作偷懶的秘密!讓我們來分別看一下三種圖片的動態變化。
過年的時候大家更喜歡把拍的照片分享到群里!
那麼周的呢?
左側是總數,右側是百分比,大家在周末,更少討論工作,也很少聊天,竟然有四分之一的人選擇外出度過自己的周末!讓我很是詫異,只有我一個人會自然醒麽?
對了我們還有圖片的寬高信息:
加了對數之後的分佈情況,貌似看不出什麼,那直接用散點吧
幾跟線若隱若現的樣子,連起來看看好了
這下知道那些線是什麼了,是手機屏幕大小和電腦屏幕大小。斜線就是屏幕的長寬比啦。也很容易看出那些屏幕占了市場的主流。那1:1的?有這種屏幕??應該是截圖的時候截的圖長寬比在1左右浮動吧,看到條線也是最粗的。
順便看了一下那些圖是最常用的。騰訊為了減少圖片在網路流上的浪費,對於md5一樣的圖片,他們在聊天記錄里的名字是一樣的!值得一提的是,一張gif動圖的第一幀如果和某個靜態的jpge圖片一樣的話,那麼他們的名字也是一樣的,基於這個原理,統計了一下29個文件夾下出現次數最多的圖片前三名,竟然是這個:
果然還是表情包,可能更容易反應大家當時的心情吧。幀數最多的是
貪吃蛇。兩幀的就都是bling bling的表情了
同事根據圖片大小,把所有16*16附近的圖片全過濾出來就可以得到一套表情包。
好了此文到此結束,這次不討論過多的模式識別和監督學習之類的東西,希望大家也能在想不到的地方得到想不到的結果,希望能對各位有所啟發。看完後希望你們也能給個這樣的表情。
THE END
原文鏈接:http://blog.tingyun.com/web/article/detail/300