Python分析 oj 網的題目難度和通過率的關係

来源:https://www.cnblogs.com/lyuzt/archive/2019/02/14/10381107.html
-Advertisement-
Play Games

本著做題的心態,上了東莞理工學院的 oj 網;看了一下題目不想動手,在選擇難度的時候發現有些通過率和難度可能存在著某些關係,於是決定爬下這些數據簡單查看一下是否存在關係。 一、新建項目 我是用 Scrapy 框架爬取的(因為剛學沒多久,順便練練手)。首先,先新建 project (下載 Scarpy ...


  本著做題的心態,上了東莞理工學院的 oj 網;看了一下題目不想動手,在選擇難度的時候發現有些題目通過率和難度可能存在著某些關係,於是決定爬下這些數據簡單查看一下是否存在關係。

 

一、新建項目

  我是用 Scrapy 框架爬取的(因為剛學沒多久,順便練練手)。首先,先新建 project (下載 Scarpy 部分已省略),在控制台輸入 scrapy startproject onlineJudge(其中, onlineJudge為項目名稱),敲擊回車鍵新建項目完成。

二、明確目的

  在動手寫代碼之前,先分析一下網頁結構。網站是通過動態載入的,數據通過 json 文件載入。

 

  1、明確要爬取的目標: http://oj.dgut.edu.cn/problems 網站里的題目,難度,提交量,通過率。在查找 json 的時候發現只有通過數,那麼通過率就要自己計算。

  2、打開 onlineJudge 目錄下的 items.py 寫下如下代碼:

class OnlinejudgeItem(scrapy.Item):

    id = scrapy.Field()                     # 題目編號
    title = scrapy.Field()                  # 標題
    difficulty = scrapy.Field()             # 難度
    submissionNo = scrapy.Field()         # 提交量
    acceptedNo = scrapy.Field()           # 正確數
    passingRate = scrapy.Field()           # 正確率

三、製作爬蟲

  1、在當前目錄下輸入命令:scrapy genspider oj "oj.dgut.edu.cn" (其中 oj 是爬蟲的名字,"oj.dgut.edu.cn"算是一個約束,規定一個功能變數名稱)

  2、打開 onlineJudge/spiders 下的 ojSpider.py ,增加或修改代碼為:

import scrapy
import json
from onlineJudge.items import OnlinejudgeItem

class OjSpider(scrapy.Spider):
    name = 'oj'        # 爬蟲的名字
    allowed_domains = ['oj.dgut.edu.cn']     # 功能變數名稱範圍
    offset = 0
    url = 'http://oj.dgut.edu.cn/api/xproblem/?limit=20&offset='
    start_urls = [url + str(offset)]       # 爬取的URL元祖/列表

    def parse(self, response):
        data = json.loads(response.text)['data']['results']
        if len(data):
            for i in range(len(data)):
                submissionNo = data[i]['submission_number']
                acceptedNo = data[i]['accepted_number']
                try:
                    passingRate = round((int(acceptedNo)/int(submissionNo)) * 100, 2)
                except ZeroDivisionError as e:
                    passingRate = 0
    
                strPR = str(passingRate) + "%"
    
                item = OnlinejudgeItem()
    
                item['id'] = data[i]['_id']
                item['title'] = data[i]['title']
                item['difficulty'] = data[i]['difficulty']
                item['submissionNo'] = submissionNo
                item['acceptedNo'] = acceptedNo
                item['passingRate'] = strPR
    
                yield item

                print(i)
            self.offset += 20
            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)
 

四、存儲數據

    1、打算將數據存儲為 excel 文檔,要先安裝 openpyxl 模塊,通過 pip install openpyxl 下載。

    2、下載完成後,在 pipelines.py 中寫入如下代碼

from openpyxl import Workbook

class OnlinejudgePipeline(object):

    def __init__(self):
        self.wb = Workbook()
        self.ws = self.wb.active                # 激活工作簿
        self.ws.append(['編號', '標題', '難度', '提交量', '正確數', '正確率'])    # 設置表頭

    def process_item(self, item, spider):
        line = [item['id'], item['title'], item['difficulty'],
                item['submissionNo'], item['acceptedNo'], item['passingRate']]
        self.ws.append(line)
        self.wb.save('oj.xlsx')
        return item

五、設置 settings.py 

    修改並增加代碼:

LOG_FILE = "oj.log"

ROBOTSTXT_OBEY = True

ITEM_PIPELINES = {
    'onlineJudge.pipelines.OnlinejudgePipeline': 300,
}

六、運行爬蟲

  在當前目錄下新建一個 main.py 並寫下如下代碼

from scrapy import cmdline

cmdline.execute("scrapy crawl oj".split())

  然後運行 main.py 文件。

 

  於是,想要的數據就被爬下來了

 

七、分析數據

  分析數據之前,先安裝好 numpy,pandas,matplotlib,xlrd。

import pandas as pd
import xlrd

data = pd.read_excel("../onlineJudge/onlineJudge/oj.xlsx")  # 導入 excel 文件
data.describe()

data = data.set_index('編號')  # 設置編號為索引
data.head()            # 顯示前五條信息

from matplotlib import pyplot as plt
import matplotlib.style as psl
%matplotlib inline

psl.use('seaborn-colorblind')    # 設置圖表風格
plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標簽

  查看題目各難度的數目:

level_values = data['難度'].values

difficulties = {
    '簡單': 0,
    '中等': 0,
    '困難': 0
}

for value in level_values:
    if value == '簡單':
        difficulties['簡單'] += 1
    elif value == '中等':
        difficulties['中等'] += 1
    else:
        difficulties['困難'] += 1

level = pd.Series(difficulties)
print(level)

level.plot(kind = 'bar', figsize=(6, 7))
plt.grid(axis='y')

  驗證正確率與難度之間是否存在關係:

import numpy as np

relation = data[['難度', '正確率']]
rate_values = relation['正確率'].values

fig, axes = plt.subplots(figsize=(15, 6))
axes.scatter(rate_values, level_values)
plt.grid(axis='x')
plt.xticks(np.arange(0, 1, 0.05))
plt.xlabel('正確率')
plt.ylabel('難度')

根據表格顯示,題目難度跟正確率是存在一定關係的(我想的沒有錯哈哈哈)。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 對於golang一直存有覬覦之心,但一直苦於沒有下定決心去學習研究,最近開始接觸golang。就我個人來說,學習golang的原動力是因為想要站在java語言之外來審視java和其它語言的區別,再就是想瞻仰一下如此NB的語言。年前就想在2019年做一件事情,希望能從各個細節處做一次java和gola ...
  • python裝飾器的作用是在不改變原有函數的基礎上,對函數的功能進行增加或者修改。 裝飾器語法是python語言更加優美且避免很多繁瑣的事情,flask中配置路由的方式便是裝飾器。 首先python中一個函數也是可以當做一個對象進行傳遞的。 輸出結果為 上面代碼相當於 帶參數的裝飾器 結果: 相當於 ...
  • Spring MVC從接收請求到返迴響應的流程 客戶端發起request請求,DispatcherServlet接收用戶請求。 DispatcherServlet請求HandlerMapping查找用戶請求對應的Handler(處理器/控制器)。 HandlerMapping將查找到的Handler ...
  • 以下是安裝語句: 然而編寫依賴 的程式,發現無法調用 的`CMake`文件,錯誤提示如下所示: 在 的`issue CMake`安裝時,如果第三方依賴在未指明的情況下,預設均通過 源碼安裝 ,如果無法通過 源碼安裝 ,則無法生成 gRPCTargets.cmake 文件): 因此需要指定第三方依賴是 ...
  • 本文包括組件的下載以及配置,持續更新中…… 1 JDK 官網:https://www.oracle.com 下載:https://www.oracle.com/technetwork/java/javase/downloads/index.html 驗證安裝成功: 2 Python 官網:https ...
  • 日期運算代碼如下: ...
  • 模塊:模塊是一系列常用功能的集合體,一個py文件就是一個模塊1、從文件級別組織程式,更方便管理隨著程式的發展,功能越來越多,為了方便管理,我們通常將程式分成一個個的文件,這樣做程式的結構更清晰,方便管理。這時我們不僅僅可以把這些文件當做腳本去執行,還可以把他們當做模塊來導入到其他的模塊中,實現了功能 ...
  • 春節假期結束了,大家陸續地重回到原來的生活軌道上。假期是一個很好的休息與調節的機會,同時,春節還有辭舊迎新的本意,它是新的輪迴的開端。 在 Python 社區里,剛發生了一件大事,同樣有開啟新紀元的意義:在"Python 之父" Guido van Rossum 宣佈卸任 BDFL(終身仁慈獨裁者) ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...