一鍵分析你的上網行為, 看看你平時上網都在幹嘛?

来源:https://www.cnblogs.com/cloudbird/archive/2019/08/11/11336663.html
-Advertisement-
Play Games

**想看看你最近一年都在幹嘛?看看你平時上網是在摸魚還是認真工作?想寫年度彙報總結,但是苦於沒有數據?現在,它來了。** 這是一個能讓你瞭解自己的瀏覽歷史的Chrome瀏覽歷史記錄分析程式,當然了,他僅適用於Chrome瀏覽器或者以Chrome為內核的瀏覽器。 在該頁面中你將可以查看有關... ...


目錄

一鍵分析你的上網行為, 看看你平時上網都在幹嘛?

簡介

想看看你最近一年都在幹嘛?看看你平時上網是在摸魚還是認真工作?想寫年度彙報總結,但是苦於沒有數據?現在,它來了。

這是一個能讓你瞭解自己的瀏覽歷史的Chrome瀏覽歷史記錄分析程式,當然了,他僅適用於Chrome瀏覽器或者以Chrome為內核的瀏覽器。

在該頁面中你將可以查看有關自己在過去的時間里所訪問瀏覽的功能變數名稱、URL以及忙碌天數的前十排名以及相關的數據圖表。




部分截圖




代碼思路

1. 目錄結構

首先,我們先看一下整體目錄結構

Code
├─ app_callback.py                          回調函數,實現後臺功能
├─ app_configuration.py                     web伺服器配置
├─ app_layout.py                            web前端頁面配置
├─ app_plot.py                              web圖表繪製
├─ app.py                                   web伺服器的啟動
├─ assets                                   web所需的一些靜態資源文件
│  ├─ css                                   web前端元素佈局文件
│  │  ├─ custum-styles_phyloapp.css
│  │  └─ stylesheet.css
│  ├─ image                                 web前端logo圖標
│  │  ├─ GitHub-Mark-Light.png
│  └─ static                                web前端幫助頁面
│  │  ├─ help.html
│  │  └─ help.md
├─ history_data.py                          解析chrome歷史記錄文件
└─ requirement.txt                          程式所需依賴庫
  • app_callback.py
    該程式基於python,使用dash web輕量級框架進行部署。app_callback.py主要用於回調,可以理解為實現後臺功能。

  • app_configuration.py
    顧名思義,對web伺服器的一些配置操作。

  • app_layout..py
    web前端頁面配置,包含html, css元素。

  • app_plot.py
    這個主要是為實現一些web前端的圖表數據。

  • app.py
    web伺服器的啟動。

  • assets
    靜態資源目錄,用於存儲一些我們所需要的靜態資源數據。

  • history_data.py
    通過連接sqlite資料庫,並解析Chrome歷史記錄文件。

  • requirement.txt
    運行本程式所需要的依賴庫。


2. 解析歷史記錄文件數據

與解析歷史記錄文件數據有關的文件為history_data.py文件。我們一一分析。

# 查詢資料庫內容
def query_sqlite_db(history_db, query):

    # 查詢sqlite資料庫
    # 註意,History是一個文件,沒有尾碼名。它不是一個目錄。
    conn = sqlite3.connect(history_db)
    cursor = conn.cursor()

    # 使用sqlite查看軟體,可清晰看到表visits的欄位url=表urls的欄位id
    # 連接表urls和visits,並獲取指定數據
    select_statement = query

    # 執行資料庫查詢語句
    cursor.execute(select_statement)

    # 獲取數據,數據格式為元組(tuple)
    results = cursor.fetchall()

    # 關閉
    cursor.close()
    conn.close()

    return results

該函數的代碼流程為:

  1. 連接sqlite資料庫,執行查詢語句,返回查詢結構,最終關閉資料庫連接。
# 獲取排序後的歷史數據
def get_history_data(history_file_path):

    try:

        # 獲取資料庫內容
        # 數據格式為元組(tuple)
        select_statement = "SELECT urls.id, urls.url, urls.title, urls.last_visit_time, urls.visit_count, visits.visit_time, visits.from_visit, visits.transition, visits.visit_duration FROM urls, visits WHERE urls.id = visits.url;"
        result = query_sqlite_db(history_file_path, select_statement)

        # 將結果按第1個元素進行排序
        # sort和sorted內建函數會優先排序第1個元素,然後再排序第2個元素,依此類推
        result_sort = sorted(result, key=lambda x: (x[0], x[1], x[2], x[3], x[4], x[5], x[6], x[7], x[8]))

        # 返回排序後的數據
        return result_sort
    except:
        # print('讀取出錯!')
        return 'error'

該函數的代碼流程為:

  1. 設置資料庫查詢語句select_statement,調用query_sqlite_db()函數,獲取解析後的歷史記錄文件數據。並對返回後的歷史記錄數據文件按照不同元素規則進行排序。至此,經過排序的解析後的歷史記錄數據文件獲取成功。


3. web伺服器基本配置

與web伺服器基本配置有關的文件為app_configuration.pyapp.py文件。包括設置web伺服器的埠號,訪問許可權,靜態資源目錄等。


4. 前端頁面部署

與前端部署有關的文件為app_layout.pyapp_plot.py以及assets目錄。

前端佈局主要包括以下幾個元素:

  • 上傳歷史記錄文件組件
  • 繪製頁面訪問次數組件
  • 繪製頁面訪問停留總時間排名組件
  • 每日頁面訪問次數散點圖組件
  • 某日不同時刻訪問次數散點圖組件
  • 訪問次數最多的10個URL組件
  • 搜索關鍵詞排名組件
  • 搜索引擎使用情況組件

app_layout.py中,這些組件的配置大多一樣,和平常的html, css配置一樣,所以我們僅僅以配置頁面訪問次數排名組件為例子。

# 頁面訪問次數排名
html.Div(
    style={'margin-bottom':'150px'},
    children=[
        html.Div(
            style={'border-top-style':'solid','border-bottom-style':'solid'},
            className='row',
            children=[
                html.Span(
                    children='頁面訪問次數排名, ',
                    style={'font-weight': 'bold', 'color':'red'}
                ),

                html.Span(
                    children='顯示個數:',
                ),
                dcc.Input(
                    id='input_website_count_rank',
                    type='text',
                    value=10,
                    style={'margin-top':'10px', 'margin-bottom':'10px'}
                ),
            ]
        ),


        html.Div(
            style={'position': 'relative', 'margin': '0 auto', 'width': '100%', 'padding-bottom': '50%', },
            children=[
                dcc.Loading(
                    children=[
                        dcc.Graph(
                            id='graph_website_count_rank',
                            style={'position': 'absolute', 'width': '100%', 'height': '100%', 'top': '0',
                                   'left': '0', 'bottom': '0', 'right': '0'},
                            config={'displayModeBar': False},
                        ),
                    ],
                    type='dot',
                    style={'position': 'absolute', 'top': '50%', 'left': '50%', 'transform': 'translate(-50%,-50%)'}
                ),
            ],
        )
    ]
)

可以看到,雖然是python編寫的,但是只要具備前端經驗的人,都可以輕而易舉地在此基礎上新增或者刪除一些元素,所以我們就不詳細講如何使用html和css了。

app_plot.py中,主要是以繪製圖表相關的。使用的是plotly庫,這是一個用於具有web交互的畫圖組件庫。
這裡以繪製頁面訪問頻率排名 柱狀圖為例子,講講如何使用plotly庫進行繪製。

# 繪製 頁面訪問頻率排名 柱狀圖
def plot_bar_website_count_rank(value, history_data):

    # 頻率字典
    dict_data = {}

    # 對歷史記錄文件進行遍歷
    for data in history_data:
        url = data[1]
        # 簡化url
        key = url_simplification(url)

        if (key in dict_data.keys()):
            dict_data[key] += 1
        else:
            dict_data[key] = 0

    # 篩選出前k個頻率最高的數據
    k = convert_to_number(value)
    top_10_dict = get_top_k_from_dict(dict_data, k)

    figure = go.Figure(
        data=[
            go.Bar(
                x=[i for i in top_10_dict.keys()],
                y=[i for i in top_10_dict.values()],
                name='bar',
                marker=go.bar.Marker(
                    color='rgb(55, 83, 109)'
                )
            )
        ],
        layout=go.Layout(
            showlegend=False,
            margin=go.layout.Margin(l=40, r=0, t=40, b=30),
            paper_bgcolor='rgba(0,0,0,0)',
            plot_bgcolor='rgba(0,0,0,0)',
            xaxis=dict(title='網站'),
            yaxis=dict(title='次數')
        )
    )


    return figure

該函數的代碼流程為:

  1. 首先,對解析完資料庫文件後返回的history_data進行遍歷,獲得url數據,並調用url_simplification(url)對齊進行簡化。接著,依次將簡化後的url存入字典中。
  2. 調用get_top_k_from_dict(dict_data, k),從字典dict_data中獲取前k個最大值的數據。
  3. 接著,開始繪製柱狀圖了。使用go.Bar()繪製柱狀圖,其中,xy代表的是屬性和屬性對應的數值,為list格式xaxisyaxis`分別設置相應坐標軸的標題
  4. 返回一個figure對象,以便於傳輸給前端。

assets目錄下包含的數據為imagecss,都是用於前端佈局。


5. 後臺部署

與後臺部署有關的文件為app_callback.py文件。這個文件使用回調的方式對前端頁面佈局進行更新。

首先,我們看看關於頁面訪問頻率排名的回調函數:


# 頁面訪問頻率排名
@app.callback(
    dash.dependencies.Output('graph_website_count_rank', 'figure'),
    [
        dash.dependencies.Input('input_website_count_rank', 'value'),
        dash.dependencies.Input('store_memory_history_data', 'data')
    ]
)
def update(value, store_memory_history_data):

    # 正確獲取到歷史記錄文件
    if store_memory_history_data:
        history_data = store_memory_history_data['history_data']
        figure = plot_bar_website_count_rank(value, history_data)
        return figure
    else:
        # 取消更新頁面數據
        raise dash.exceptions.PreventUpdate("cancel the callback")

該函數的代碼流程為:

  1. 首先確定好輸入是什麼(觸發回調的數據),輸出是什麼(回調輸出的數據),需要帶上什麼數據。dash.dependencies.Input指的是觸發回調的數據,而dash.dependencies.Input('input_website_count_rank', 'value')表示當idinput_website_count_rank的組件的value發生改變時,會觸發這個回調。而該回調經過update(value, store_memory_history_data)的結果會輸出到idgraph_website_count_rankvalue,通俗來講,就是改變它的值。
  2. 對於def update(value, store_memory_history_data)的解析。首先是判斷輸入數據store_memory_history_data是否不為空對象,接著讀取歷史記錄文件history_data,接著調用剛纔所說的app_plot.py文件中的plot_bar_website_count_rank(),返回一個figure對象,並將這個對象返回到前端。至此,前端頁面的佈局就會顯示出頁面訪問頻率排名的圖表了。

還有一個需要說的就是關於上次文件的過程,這裡我們先貼出代碼:

# 上傳文件回調
@app.callback(

    dash.dependencies.Output('store_memory_history_data', 'data'),
    [
        dash.dependencies.Input('dcc_upload_file', 'contents')
    ]
)
def update(contents):

    if contents is not None:

        # 接收base64編碼的數據
        content_type, content_string = contents.split(',')

        # 將客戶端上傳的文件進行base64解碼
        decoded = base64.b64decode(content_string)

        # 為客戶端上傳的文件添加尾碼,防止文件重覆覆蓋
        # 以下方式確保文件名不重覆
        suffix = [str(random.randint(0,100)) for i in range(10)]
        suffix = "".join(suffix)
        suffix = suffix + str(int(time.time()))

        # 最終的文件名
        file_name = 'History_' + suffix
        # print(file_name)

        # 創建存放文件的目錄
        if (not (exists('data'))):
            makedirs('data')

        # 欲寫入的文件路徑
        path = 'data' + '/' + file_name

        # 寫入本地磁碟文件
        with open(file=path, mode='wb+') as f:
            f.write(decoded)


        # 使用sqlite讀取本地磁碟文件
        # 獲取歷史記錄數據
        history_data = get_history_data(path)
        
        # 獲取搜索關鍵詞數據
        search_word = get_search_word(path)

        # 判斷讀取到的數據是否正確
        if (history_data != 'error'):
            # 找到
            date_time = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))
            print('新接收到一條客戶端的數據, 數據正確, 時間:{}'.format(date_time))
            store_data = {'history_data': history_data, 'search_word': search_word}
            return store_data
        else:
            # 沒找到
            date_time = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(time.time()))
            print('新接收到一條客戶端的數據, 數據錯誤, 時間:{}'.format(date_time))
            return  None

    return None

該函數的代碼流程為:

  1. 首先判斷用戶上傳的數據contents是否不為空,接著將客戶端上傳的文件進行base64解碼。並且,為客戶端上傳的文件添加尾碼,防止文件重覆覆蓋,最終將客戶端上傳的文件寫入本地磁碟文件。

  2. 寫入完畢後,使用sqlite讀取本地磁碟文件,若讀取正確,則返回解析後的數據,否則返回None




如何運行

線上演示程式:http://39.106.118.77:8090(普通伺服器,勿測壓)

運行本程式十分簡單,只需要按照以下命令即可運行:

# 跳轉到當前目錄
cd 目錄名
# 先卸載依賴庫
pip uninstall -y -r requirement.txt
# 再重新安裝依賴庫
pip install -r requirement.txt
# 開始運行
python app.py

# 運行成功後,通過瀏覽器打開http://localhost:8090




補充

完整版源代碼存放在github上,有需要的可以下載

項目持續更新,歡迎您star本項目





您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 原文 https://medium.com/netflix techblog/re architecting the video gatekeeper f7b0ac2f6b00 本文介紹了了內容配置工程團隊使用Hollow,一個Netflix OSS技術,重新架構與簡化我們內容管道上的基礎組件 在流 ...
  • 1、什麼是CSRF攻擊? CSRF是跨站請求偽造(Cross-site request forgery)的英文縮寫\ Laravel框架中避免CSRF攻擊很簡單:Laravel自動為每個用戶Session生成了一個CSRF Token,該Token可用於驗證登錄用戶和發起請求者是否是同一人,如果不是 ...
  • 本文屬於SpringMVC的入門篇,屬於基礎知識,僅供學習分享使用,如有不足之處,還請指正。 ...
  • [TOC] java實現發簡訊功能 前言 如今發簡訊功能已經成為互聯網公司的標配,本篇文章將一步步實現java發送簡訊 考察了許多提供簡訊服務的三方,幾乎所有都需要企業認證才可以使用,這對於個人學習非常不方便。多方比較之後,選擇了騰訊雲(此處並非做廣告),原因有兩點: 1. 支持微信公眾號認證(門檻 ...
  • 單元測試根據級別不同可分為:單元測試、集成測試、系統測試、驗收測試、回歸測試 單元測試的更能特點:對代碼最基本單元(函數、方法)的測試、 給予特定條件判斷結果是否符合預期 相對整個程式的測試,單元測試簡化了測試任務 unittest 模塊 代碼組織: 斷言:assertEqual(值,表達式) 是否 ...
  • <! more https://t.zsxq.com/UnA2jIi 博客 1、 "Flink 從0到1學習 —— Apache Flink 介紹" 2、 "Flink 從0到1學習 —— Mac 上搭建 Flink 1.6.0 環境並構建運行簡單程式入門" 3、 "Flink 從0到1學習 —— ...
  • 類的構成 類(Class) 由3個部分構成 類的名稱:類名 類的屬性:一組數據 類的方法:允許對進行操作的方法 (行為) 定義類 創建對象 Student類擁有的屬性數據 __init__()方法 __init___方法傳遞參數 __init___方法總結 定義__str__()方法 當使用prin ...
  • FutureTask FutureTask是Future的實現,用來非同步任務的獲取結果,可以啟動和取消非同步任務,查詢非同步任務是否計算結束以及獲取最終的非同步任務的結果。通過get()方法來獲取非同步任務的結果,但是會阻塞當前線程直至非同步任務執行結束。一旦任務執行結束,任務不能重新啟動或取消,除非調用ru ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...