xlsx 的讀入及詞雲輸出_ZenDei技術網路在線

xlsx 的讀入及詞雲輸出

-Advertisement-

#coding=utf-8 import sysreload(sys)sys.setdefaultencoding('utf-8') import xlrdimport jiebaimport codecsimport csvimport numpy as npfrom wordcloud impo ...

#coding=utf-8

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import xlrd
import jieba
import codecs
import csv
import numpy as np
from wordcloud import WordCloud
import jieba.posseg
import logging

def read_xlsx(filename):
workbook = xlrd.open_workbook(filename)
booksheet = workbook.sheet_by_name('Sheet1')
p = list()
count = 0
for row in range(booksheet.nrows):
count += 1
#if(count == 1000): break
row_data = []
for col in range(booksheet.ncols):
cel = booksheet.cell(row, col)
val = cel.value
try:
val = cel.value
val = re.sub(r'\s+', '', val)
except:
pass

if type(val) == float:
val = int(val)
else:
val = str( val )
row_data.append(val)
p.append(row_data)
print 'The size of p is ' + str(len(p))
return p

def seperate(p):
result = {}
count = 0
for i in p:
count += 1
if(count % 100 == 0): print 'Have seperate :# ' + str(count) + ' # words'
for j in i:
seg_list = jieba.posseg.cut(j)
try:
for k in seg_list:
if k.flag.startswith('n'):
v = 1
w = k.word
if result.has_key(w):
v = result[w]
v += 1
result[w] = v
except Exception,e:
print Exception,":",e
return result

def is_chinese(s):
rt = False
if s>= u"\u4e00" and s<= u"\u9fa6":
rt = True
return rt

def cutdict(p, top):
result = {}
biggerone = {}
vs = []
for (k,v) in p.items():
if(len(k) > 1 and is_chinese(k)):
vs.append(v)
biggerone[k] = v
vs.sort(reverse = True)
top_v = np.percentile(vs, top)
for (k,v) in biggerone.items():
if v >= top_v:
result[k] = v
return result

def initfile(filename):
csvfile = open(filename, 'wb')
csvfile.write(codecs.BOM_UTF8)
writer = csv.writer(csvfile)
writer.writerow(['詞','詞頻'])
return csvfile, writer

def ci2file(csvfile, writer, result):
for (k,v) in result.items():
if(len(k) > 1):
row = []
row.append(k)
row.append(v)
writer.writerow(row)
csvfile.flush()
csvfile.close()

p = read_xlsx('user_tweets_2.xlsx')
logging.info('Done read tweets')
result = seperate(p)
csvfile, writer = initfile('user_tweets_2.csv')
ci2file(csvfile, writer, result)
result = cutdict(result, 90)
logging.info('Done Cut result')
print 'The size of final result is ' + str(len(result))
# Generate a word cloud image 此處原為 text 方法，我們改用 frequencies
#wordcloud = WordCloud().generate(text

import random

# 形成獨特的灰黑色調
def grey_color_func(word, font_size, position, orientation, random_state=None, **kwargs):
return "hsl(0, 0%%, %d%%)" % random.randint(60, 100)

from PIL import Image
import matplotlib.pyplot as plt
mask = np.array(Image.open('timg2.png'))
logging.info('Done Read image')

wordcloud = WordCloud(max_words = 1000, mask = mask,
margin = 10,font_path='/Library/Fonts/華文仿宋.ttf')

wordcloud.fit_words(result)

default_colors = wordcloud.to_array()
plt.title("Custom colors")
plt.imshow(wordcloud.recolor(color_func=grey_color_func, random_state=3))
wordcloud.to_file("a_new_hope.png")
plt.axis("off")
plt.figure()
plt.title("Default colors")
plt.imshow(default_colors)
plt.axis("off")
plt.show()
# Display the generated image:
# the matplotlib way:

#plt.imshow(wordcloud)
#plt.axis("off")
#plt.show()

#from operator import itemgetter
#item1 = itemgetter(1)
#frequencies = sorted(result.items(), key=item1, reverse=True)

print 'done'

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

NET Core helloworld

NET Core 第二部分： centos7 helloworld 站點在開發機器上（我是在台式機），用Visual Studio 2017 發佈NET Core mvc ,上傳到Centos伺服器，客戶端開發機器可以訪問Helloworl站點開發環境：windows7+Visual Studi ...
0063 MyBatis入門示例

MyBatis是一個“半自動化”的ORM框架，ORM即Object/Relation Mapping，對象關係映射，是面向對象編程語言跟關係型資料庫的橋梁，將編程語言對Java實體類的操作映射到資料庫中。下麵以向資料庫中添加一條圖書信息為例，說明MyBatis的入門操作 MyEclipse中新建個 ...
集合類

圖中的綠色的虛線代表實現，綠色實線代表介面之間的繼承，藍色實線代表類之間的繼承。 1)AbstractCollection:提供了大量的Collectin實現兩個抽象方法: public abstract Iterator<E> iterator(); public abstract int si ...
【Mybatis】1、Mybatis攔截器學習資料彙總

MyBatis攔截器原理探究 http://www.cnblogs.com/fangjian0423/p/mybatis-interceptor.html 【myBatis】Mybatis中的攔截器 http://blog.csdn.net/moshenglv/article/details/526 ...
PHP 數組知識整理

數組：鍵值對組成的語言結構，根據維數可分為：一維數組、多維數組根據Key可分為：索引數組、關聯數組 PHP數組創立數組的方式： $ar_1 = array();//空數組 $ar_2 = array(0,1,2)//初始化數組，有3個值 $ar_3[0] = 1; $ar_3['name'] ...
小練習_num1

題目：將一個正整數分解質因數。例如：輸入90，列印輸出90=2*3*3*5。 ...
【原創】python 比較兩個版本號大小

設計思想： 1.使用正則表達式判斷版本號格式是否正確 2.將字元串用”.”分隔成數組 3.比較數組長度，將長度短的數組用“0”補齊成相等長度數組 4.逐個遍曆數組元素，比較大小測試用例： 1.版本號為空 2.版本號含非數字 3.版本號長度不一致 4.版本號以點為分隔，逐位比較 ...
關於java中Pattern和Matcher區別於聯繫

本文章轉自: http://blog.csdn.net/cclovett/article/details/12448843 結論：Pattern與Matcher一起合作.Matcher類提供了對正則表達式的分組支持,以及對正則表達式的多次匹配支持. 單獨用Pattern只能使用Pattern.mat ...

xlsx 的讀入 及 詞雲輸出

xlsx 的讀入及詞雲輸出