使用python處理百萬條數據分享(適用於java新手)

来源:https://www.cnblogs.com/LipeiNet/archive/2018/06/04/9135324.html
-Advertisement-
Play Games

1、前言 因為負責基礎服務,經常需要處理一些數據,但是大多時候採用awk以及java程式即可,但是這次突然有百萬級數據需要處理,通過awk無法進行匹配,然後我又採用java來處理,文件一分為8同時開啟8個線程併發處理,但是依然處理很慢,處理時長起碼在1天+所以無法忍受這樣的處理速度就採用python ...


1、前言

因為負責基礎服務,經常需要處理一些數據,但是大多時候採用awk以及java程式即可,但是這次突然有百萬級數據需要處理,通過awk無法進行匹配,然後我又採用java來處理,文件一分為8同時開啟8個線程併發處理,但是依然處理很慢,處理時長起碼在1天+所以無法忍受這樣的處理速度就採用python來處理,結果速度有了質的提升,大約處理時間為1個小時多一點,這個時間可以接受,後續可能繼續採用大數據思想來處理,相關的會在後續繼續更新。

2、安裝python

 

第一步首先下載python軟體,在官網可以根據自己情況合理下載,其餘就是下一步搞定,然後在開始裡面找到python的exe,點擊開然後輸入1+1就可以看出是否安裝成功了.如下圖

 

3、IEDA編輯器如何使用python

首先我們在idea中打開設置然後點擊plugins,在裡面有個輸入框中輸入python,根據提示找到如下的這個(idea版本不同可能影響python版本)

 

然後開始創建idea工程

file->New->Project->python然後出現如下圖情況(其他的下一步然後就會創建工程了)

 

4、開發前知識準備

文件的讀取,python讀取文件非常的簡單,我現在直接貼代碼提供給大家

 

def readData(fileName):
    result = ""
    count=0
    with open(fileName, 'r') as f:
        for line in f.readlines():
            result += line
            count += 1
            print count
    return result


"""寫入文件"""


def writeData(fileName, data):
    with open(fileName, 'a+')as f:
        f.write(data)
讀寫

 

其中def是函數的定義,如果我們寫定義一個函數直接前面加上def,返回值可以獲取後直接用return即可

python我們直接採用with open('文件路徑',模式) as f的方式來打開文件

模式:

r 只讀 文件不存在則出錯
r+ 支持讀寫 文件不存在則出錯,寫入時,會覆蓋源文件
w 只寫 如果文件不存在則創建文件,會覆蓋源文件,如果寫入內容少則保留為覆蓋的內容
w+ 支持讀寫 同上
a 只寫 如果文件不存在則創建文件,會採用追加模式
a+ 讀寫 同上
b 二進位讀寫  

 

 

 

 

 

 

 

 

 

跨文件引用:

同一個層級python是採用import直接導入文件名的方式,看下一個代碼

 

import IoUtils

fileName1 = 'D:\\works\\pythons\\files\\userids.txt'
userIds = IoUtils.readData(fileName1).split('\n')
fileName2 = 'D:\\works\\pythons\\files\\records.txt'
records = IoUtils.readData(fileName2).strip()
recordsArr = records.split('\n')
count=0;
for data in recordsArr:
    count+=1
    if data.split('\t')[2] in userIds:
        IoUtils.writeData('D:\\works\\pythons\\files\\20180604.txt', data + '\n')
    print count
View Code

 

其他說明:

其中split和java程式的split一樣,strip是去掉空格換行符等,迴圈(for in)模式,判斷某個元素是否在數組中存在則直接使用 元素 in 數組

 

5、總結

如果你有數據量級別在百分的時候我建議優先可以想到python處理真的特別方便,而且很簡單學習成本也很低,但是卻很實用,其實awk在數據處理中也發揮很大的作用,大家可以私下學習,如果有時間我會分享一些,關於數據我這裡就不提供了大家可以按照我上述代碼跑就可以,更細節的我推薦看廖雪峰的python教程。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Flask之Hello World 一、Python虛擬環境: 作用:使Python框架的不同版本可以在同一臺電腦上運行。如果在電腦上全局(C盤或者其他目錄)安裝Flask(或其他Python框架),當你使用其他版本的Flask(比如有新版本了!),那有可能這個版本和之前的版本就不相容,你就不能再同 ...
  • 原創 標題:平方十位數 由0~9這10個數字不重覆、不遺漏,可以組成很多10位數字。這其中也有很多恰好是平方數(是某個數的平方)。 比如:1026753849,就是其中最小的一個平方數。 請你找出其中最大的一個平方數是多少? 註意:你需要提交的是一個10位數字,不要填寫任何多餘內容。 枚舉: 枚舉範 ...
  • 在配置Flask框架,安裝mysqlclient時報一下錯誤 翻譯了一下大概是 mysql_config 文件沒找到, 解決方法是安裝缺失的文件。 sudo apt install libmysqlclient-dev ...
  • 通過上一章的源碼分析,我們知道了spring boot裡面的listeners到底是什麼(META INF/spring.factories定義的資源的實例),以及它是創建和啟動的,今天我們繼續深入分析一下SpringApplication實例變數中的run函數中的其他內容。還是先把run函數的代碼 ...
  • ![](https://images2018.cnblogs.com/blog/1330073/201806/1330073-20180604220203521-1631170167.png) ...
  • import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from sele... ...
  • ​ 應用場景: 用戶在註冊或者密碼丟失等過程中,賬號綁定郵箱,用戶在進行身份認證的過程中,電子郵箱確實是一種很常用的方式,Python中提供了smtplib可以實現發送電子郵件功能,Flask框架也有對應的flask email庫,擴展對電子發送的支持 安裝 導入及初始化 Flask mail可以連 ...
  • django反向解析URL和URL命名空間 首先明確幾個概念: 1.在html頁面上的內容特別是向用戶展示的url地址,比如常見的超鏈接,圖片鏈接等,最好能動態生成,而不要固定. 2.一個django項目中一般包含了多個django應用(app). 3.一個視圖(view)往往對應多個url地址. ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...