所有人物的相似圖連接。 關係同上。展示形式為多中心結構 以張無忌的不同身份為中心的網路關係圖。 一、分析結果 實體的不同屬性(張無忌的總多馬甲) 張無忌,無忌,張教主,無忌哥哥,張公子。同一個張無忌有多個身份,不同身份又和不同的人聯繫,有不一樣的相似度。 先來看看圖: 無忌哥哥是過於親密的名字,一般 ...
所有人物的相似圖連接。
關係同上。展示形式為多中心結構
以張無忌的不同身份為中心的網路關係圖。
一、分析結果
實體的不同屬性(張無忌的總多馬甲)
張無忌,無忌,張教主,無忌哥哥,張公子。同一個張無忌有多個身份,不同身份又和不同的人聯繫,有不一樣的相似度。
先來看看圖:
無忌哥哥是過於親密的名字,一般不喊。好似和這個詞相似度高的都是比較奇怪的角色。
無忌是關係熟了以後,平輩或者長輩可以稱呼的名字。還有周姑娘,殷姑娘等
數據預處理
-
文本文件轉發成utf8(pandas)
-
文本文件分句,分詞(Jieba)
-
文本文件分句,分詞, 分析詞性,主要是人名(Jieba)
-
更新自定義詞典,重新分詞(整個過程需要幾遍,直至滿意)
-
手工少量刪除(分詞出來的人名誤判率不高,但是還是存在一些。例如:趙敏笑道,可以被識別的 一個叫 趙敏笑的人。 這部分工作還需要手工做。 除非有更好的分詞工具,或者可以訓練的分詞工具,才能解決這一問題。
Word2Vec 訓練模型。這個模型可以計算兩個人之間的相似度
Word2Vec 向量化訓練
建立實體關係矩陣
歡迎大家關註我的博客:https://home.cnblogs.com/u/sm123456/
歡迎大家加入萬人交流學習,資源共用群:125240963