Python爬知乎妹子都愛取啥名

来源:http://www.cnblogs.com/jiaoyu121/archive/2017/06/04/6942467.html
-Advertisement-
Play Games

閑來無事上知乎,看到好多妹子,於是抓取一波。 有沒有興趣?? 目標網址https://www.zhihu.com/collection/78172986 抓取分析 爬取分析 使用pandas操作文件 那麼,下一步就是對名字進行分詞了,jieba分詞,你值得擁有。fxsjy/jieba 下一步就是分詞 ...


閑來無事上知乎,看到好多妹子,於是抓取一波。

有沒有興趣??

目標網址https://www.zhihu.com/collection/78172986

抓取分析

爬取分析

使用pandas操作文件

import pandas as pd
fp = pd.read_excel('D:\Backup\桌面\lunzige.xlsx')

fp

name = fp['name'].tolist()
li1 = list(set(name))
li1

['阿蕾',
 '楊面',
 '陳10',
 '楊順順',
 '霧橤',
 '真順順真',
 '謝椿明',
 '刀刀',
 '水槍大帝',
 '傾淺',
 'Listening',
 '小火龍',
 '包子琛',
 '楊筍筍',
 '蜉蝣',
 '十元',
 '靡靡之音',
 'Real機智張',
 '陳梓小童鞋',
 '花甲',
 '窗里窗外',
 '劉梓喬',
 '璇璇97',
 'Olivia菊香小姐姐',
 '牛奶小夏目',
 '周依寧',
 '萬阿咸',
 '一蓑煙雨任平生',
 '來都來了',
 '就像周一',
 'Mc蛋蛋',
 '秉劍侯',
 '李大夢Lee',
 'Diss銳雯',
 '雨音眞白',
 '半仙么么',
 'Natsuki是只蠢兔紙',
 '夏冰瑩',
 'guuweihai',
 '阿舞',
 '肖柚妮',
 '墨脫要開',
 '芷珞',
 '舒西婷',
 'Childe0Q',
 '被壓扁的海螺',
 'snow arc',
 '灰灰灰灰灰plus',
 '小兔子菲呀',
 '士多啤梨羊咩咩',
 '李小可可',
 '誰來拽我的尾巴',
 '飛鴿之舞',
 '小美',
 '櫻雪綾sama',
 'zshiyao',
 '王漠里',
 'Slivan',
 '喵小蝦',
 'SUSAN蘇',
 '上官蘭顏',
 '這個殺手不太冷',
 '看朱成碧紛思君',
 '情緒',
 '我系小忌廉',
 '一隻兔',
 'June',
 '我就想改名而已',
 '溫柔的大貓Leo',
 '貓芙琳',
 '以太',
 '博麗魔理沙',
 '洛麗塔',
 '羽小團',
 '婁良',
 'Rosi',
 '葉以北',
 '吃不胖的小貓',
 'Lina',
 'ingrid',
 'itttttx',
 '胡楊',
 '孫阿童',
 '林美珍',
 '赫蘿Taiga',
 '宮曼曼',
 'Yoonyicc',
 'ZW711',
 '笙簫',
 'KIKI.Liu',
 '另一隻襪子',
 '荒野大嫖客',
 '少女詩',
 '芸豆豆豆豆',
 '璐璐嚕',
 '棹歌',
 '夢裡有隻獨角獸',
 'Oo澄子oO',
 '雷梅苔絲',
 'CherryZhao',
 '李萬一',
 '琴脂',
 '鹿斑比',
 'Chris姬-雲煙',
 'hyoram',
 '蔗蔗蔗',
 '柚子Ruby',
 'Sheena',
 '孟德爾',
 'kaka小師妹',
 '楨視明',
 '大豆苗',
 '少女開膛手',
 '陳詩茗']

那麼,下一步就是對名字進行分詞了,jieba分詞,你值得擁有。fxsjy/jieba

li2 = ''.join(li1)
li2

'阿蕾楊面陳10楊順順霧橤真順順真謝椿明刀刀水槍大帝傾淺Listening小火龍包子琛楊筍筍蜉蝣十元靡靡之音Real機智張陳梓小童鞋花甲窗里窗外劉梓喬璇璇97Olivia菊香小姐姐牛奶小夏目周依寧萬阿咸一蓑煙雨任平生來都來了就像周一Mc蛋蛋秉劍侯李大夢LeeDiss銳雯雨音眞白半仙么么Natsuki是只蠢兔紙夏冰瑩guuweihai阿舞肖柚妮墨脫要開芷珞舒西婷Childe0Q被壓扁的海螺snow arc灰灰灰灰灰plus小兔子菲呀士多啤梨羊咩咩李小可可誰來拽我的尾巴飛鴿之舞小美櫻雪綾samazshiyao王漠里Slivan喵小蝦SUSAN蘇上官蘭顏這個殺手不太冷看朱成碧紛思君情緒我系小忌廉一隻兔June我就想改名而已溫柔的大貓Leo貓芙琳以太博麗魔理沙洛麗塔羽小團婁良Rosi葉以北吃不胖的小貓Linaingriditttttx胡楊孫阿童林美珍赫蘿Taiga宮曼曼YoonyiccZW711笙簫KIKI.Liu另一隻襪子荒野大嫖客少女詩芸豆豆豆豆璐璐嚕棹歌夢裡有隻獨角獸Oo澄子oO雷梅苔絲CherryZhao李萬一琴脂鹿斑比Chris姬-雲煙hyoram蔗蔗蔗柚子RubySheena孟德爾kaka小師妹楨視明大豆苗少女開膛手陳詩茗'


下一步就是分詞製作圖雲了

import jieba
seg_list = jieba.cut(li2)
word = "/".join(seg_list)
print("Full Mode: " + "/ ".join(seg_list)) 

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.148 seconds.
Prefix dict has been built succesfully.
Full Mode: 阿蕾/ 楊/ 面陳/ 10/ 楊/ 順順/ 霧/ 橤/ 真/ 順順/ 真/ 謝椿明/ 刀刀/ 水槍/ 大帝/ 傾淺/ Listening/ 小/ 火龍/ 包子/ 琛/ 楊筍/ 筍/ 蜉蝣/ 十元/ 靡靡之音/ Real/ 機智/ 張/ 陳梓/ 小/ 童鞋/ 花甲/ 窗里/ 窗外/ 劉梓喬/ 璇/ 璇/ 97Olivia/ 菊香/ 小姐姐/ 牛奶/ 小夏目/ 周依寧/ 萬/ 阿/ 咸一/ 蓑/ 煙雨任/ 平生/ 來/ 都/ 來/ 了/ 就/ 像/ 周一/ Mc/ 蛋蛋/ 秉劍侯/ 李大夢/ LeeDiss/ 銳雯雨/ 音眞白/ 半仙/ 么/ 么/ Natsuki/ 是/ 只/ 蠢/ 兔紙/ 夏/ 冰瑩/ guuweihai/ 阿舞/ 肖柚妮/ 墨脫/ 要/ 開芷/ 珞/ 舒西婷/ Childe0Q/ 被/ 壓扁/ 的/ 海螺/ snow/  / arc/ 灰灰/ 灰灰/ 灰/ plus/ 小兔子/ 菲/ 呀/ 士多啤梨/ 羊/ 咩/ 咩/ 李小/ 可可/ 誰/ 來/ 拽/ 我/ 的/ 尾巴/ 飛鴿/ 之舞/ 小美/ 櫻雪/ 綾/ samazshiyao/ 王漠/ 里/ Slivan/ 喵/ 小蝦/ SUSAN/ 蘇/ 上官/ 蘭顏/ 這個/ 殺手/ 不/ 太冷/ 看朱成碧/ 紛思君/ 情緒/ 我系/ 小忌廉/ 一隻/ 兔/ June/ 我/ 就/ 想/ 改名/ 而已/ 溫柔/ 的/ 大貓/ Leo/ 貓/ 芙琳/ 以太/ 博麗/ 魔理沙/ 洛麗塔/ 羽小團/ 婁良/ Rosi/ 葉/ 以北/ 吃不胖/ 的/ 小貓/ Linaingriditttttx/ 胡楊/ 孫阿童/ 林美珍/ 赫蘿/ Taiga/ 宮曼曼/ YoonyiccZW711/ 笙簫/ KIKI/ ./ Liu/ 另一隻/ 襪子/ 荒野/ 大/ 嫖客/ 少女/ 詩/ 芸豆/ 豆豆/ 豆璐璐嚕/ 棹/ 歌夢裡/ 有/ 只/ 獨角獸/ Oo/ 澄子/ oO/ 雷梅/ 苔絲/ CherryZhao/ 李萬/ 一琴脂/ 鹿斑/ 比/ Chris/ 姬/ -/ 雲煙/ hyoram/ 蔗蔗蔗/ 柚子/ RubySheena/ 孟德爾/ kaka/ 小/ 師妹/ 楨視/ 明大/ 豆苗/ 少女/ 開膛手/ 陳詩/ 茗

下一步繪製圖雲,用jupyter遇到了很多坑。。

# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator

# 直接從文件讀取數據

text = '''阿蕾/楊/面陳/10/楊/順順/霧/橤/真/順順/真/謝椿明/刀刀/水槍/大帝/傾淺/Listening/小/火龍/包子/琛/楊筍/筍/蜉蝣/十元/靡靡之音/Real/機智/張/陳梓/小/童鞋/花甲/窗里/窗外/劉梓喬/璇/璇/97Olivia/菊香/小姐姐/牛奶/小夏目/周依寧/萬/阿/咸一/蓑/煙雨任/平生/來/都/來/了/就/像/周一/Mc/蛋蛋/秉劍侯/李大夢/LeeDiss/銳雯雨/音眞白/半仙/么/么/Natsuki/是/只/蠢/兔紙/夏/冰瑩/guuweihai/阿舞/肖柚妮/墨脫/要/開芷/珞/舒西婷/Childe0Q/被/壓扁/的/海螺/snow/ /arc/灰灰/灰灰/灰/plus/小兔子/菲/呀/士多啤梨/羊/咩/咩/李小/可可/誰/來/拽/我/的/尾巴/飛鴿/之舞/小美/櫻雪/綾/samazshiyao/王漠/里/Slivan/喵/小蝦/SUSAN/蘇/上官/蘭顏/這個/殺手/不/太冷/看朱成碧/紛思君/情緒/我系/小忌廉/一隻/兔/June/我/就/想/改名/而已/溫柔/的/大貓/Leo/貓/芙琳/以太/博麗/魔理沙/洛麗塔/羽小團/婁良/Rosi/葉/以北/吃不胖/的/小貓/Linaingriditttttx/胡楊/孫阿童/林美珍/赫蘿/Taiga/宮曼曼/YoonyiccZW711/笙簫/KIKI/./Liu/另一隻/襪子/荒野/大/嫖客/少女/詩/芸豆/豆豆/豆璐璐嚕/棹/歌夢裡/有/只/獨角獸/Oo/澄子/oO/雷梅/苔絲/CherryZhao/李萬/一琴脂/鹿斑/比/Chris/姬/-/雲煙/hyoram/蔗蔗蔗/柚子/RubySheena/孟德爾/kaka/小/師妹/楨視/明大/豆苗/少女/開膛手/陳詩/茗'''

backgroud_Image = plt.imread('girl.jpg')
wc = WordCloud( background_color = 'white',    # 設置背景顏色
                mask = backgroud_Image,        # 設置背景圖片
                max_words = 2000,            # 設置最大現實的字數
                stopwords = STOPWORDS,        # 設置停用詞
                font_path = 'C:/Users/Windows/fonts/msyh.ttf',# 設置字體格式,如不設置顯示不了中文
                max_font_size = 300,            # 設置字體最大值
                random_state = 50,            # 設置有多少種隨機生成狀態,即有多少種配色方案
                )
wc.generate(text)
image_colors = ImageColorGenerator(backgroud_Image)
#wc.recolor(color_func = image_colors)
plt.imshow(wc)
plt.axis('off')
plt.show()

 

 

0    陳詩茗    https://www.zhihu.com/people/chen-shi-ming-69
1    李大夢Lee    https://www.zhihu.com/people/li-da-meng-58-44
2    snow arc    https://www.zhihu.com/people/xiaoxueli
3    夏冰瑩    https://www.zhihu.com/people/xia-bingying
4    Sheena    https://www.zhihu.com/people/zhang-chu-yun-84
5    喵小蝦    https://www.zhihu.com/people/maoxiaoxia233
6    李大夢Lee    https://www.zhihu.com/people/li-da-meng-58-44
7    李大夢Lee    https://www.zhihu.com/people/li-da-meng-58-44
8    以太    https://www.zhihu.com/people/elapse08
9    zshiyao    https://www.zhihu.com/people/duo-rou-wan-zi-89
10    SUSAN蘇    https://www.zhihu.com/people/susansu-66

 

學習過程中遇到什麼問題或者想獲取學習資源的話,歡迎加入學習交流群
626062078,我們一起學Python!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 原創聲明:本文為本人原創作品,絕非他處摘取,轉載請聯繫博主 相信大家在各大網站都會遇到,登錄時,在登錄框出現下次免登陸/一個月免登陸的類似選項,本次博文就是講解如何實現,在這記錄一下,也算是做個備忘錄合集,如果文中有錯,歡迎大家指出 為啥說自登陸一次呢,因為當訪問某個頁面時,如果第一次自動登錄失敗時 ...
  • 序列標註(sequence labelling),輸入序列每一幀預測一個類別。OCR(Optical Character Recognition 光學字元識別)。 MIT口語系統研究組Rob Kassel收集,斯坦福大學人工智慧實驗室Ben Taskar預處理OCR數據集(http://ai.sta ...
  • 一開始,我得向Libuv庫和Libuv庫開發者以及相關粉絲們道一個歉,對不起,我錯怪你們了。深深感到自己的無知,是多麼羞愧的事情!! 事情的經過是這樣的。 原先按照公司要求,我在開發Windows版的TCP伺服器時,使用了Libuv庫。正是因為Libuv庫的強大,才讓我們老大推薦使用。我們老大學識淵 ...
  • 作業二:多級菜單 (1)三級菜單 (2)可以次選擇進入各子菜單 (3)所需新知識點:列表、字典 要求:輸入back返回上一層,輸入quit退出整個程式 思路: (1)首先定義好三級菜單字典; (2)提取第一級省的編號,列印包含哪些省份,讓用戶輸入省份的編號,能夠顯示對應的省,這個過程需要創建一個字典 ...
  • 今天我做JUnit關於MySQL測試時發現,類似於assertNull(tu)之類的代碼不知道什麼意思,因此稍微總結如下。 org.springframework.util.AssertAssert翻譯為中文為"斷言".大概來說,就是斷定某一個實際的值就為自己預期想得到的,如果不一樣就拋出異常. s ...
  • 環境配置1:安裝mysql,環境變數添加mysql的bin目錄 環境配置2:python安裝MySQL-Python 請根據自身操作系統下載安裝,否則會報c ++ compile 9.0,import _mysql等錯誤 windows10 64位操作系統可到 http://www.lfd.uci. ...
  • 今日學習:hibernate是什麼 一、hibernate是什麼 框架是什麼: 1.框架是用來提高開發效率的 2.封裝了好了一些功能.我們需要使用這些功能時,調用即可.不需要再手動實現. 3.所以框架可以理解成是一個半成品的項目.只要懂得如何駕馭這些功能即可. hibernate框架是什麼: hib ...
  • 資料 "A literature review of UAV 3D path planning" 上面那個論文把uav的路徑規劃分為以下5類: sampling based algorithms node based algorithms mathematical model based algor ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...