Python併發編程之線程中的信息隔離（五）

-Advertisement-

大家好，併發編程進入第三篇。上班第一天，大家應該比較忙吧。小明也是呢，所以今天的內容也很少。只要幾分鐘就能學完。昨天我們說，線程與線程之間要通過消息通信來控製程序的執行。講完了消息通信，今天就來探討下線程里的信息隔離是如何做到的。大家註意：信息隔離，這並不是官方命名的名詞，也不是網上廣為流 ...

大家好，併發編程 進入第三篇。

上班第一天，大家應該比較忙吧。小明也是呢，所以今天的內容也很少。只要幾分鐘就能學完。

昨天我們說，線程與線程之間要通過消息通信來控製程序的執行。

講完了消息通信，今天就來探討下線程里的信息隔離是如何做到的。

大家註意：
信息隔離，這並不是官方命名的名詞，也不是網上廣為流傳的名詞。是我為了方便理解而自創的，大家知道就好咯。

本文目錄

初步認識信息隔離
信息隔離的意義何在

. 初步認識信息隔離

什麼是信息隔離？
比如說，咱有兩個線程，線程A里的變數，和線程B里的變數值不能共用。這就是信息隔離。

你可能要說，那變數名取不一樣不就好啦？

是的，如果所有的線程都不是由一個class實例化出來的同一個對象，確實是可以。這個問題我們暫且掛著，後面我再說明。

那麼，如何實現信息隔離呢？
在Python中，其提供了threading.local這個類，可以很方便的控制變數的隔離，即使是同一個變數，在不同的線程中，其值也是不能共用的。

用代碼來看下

from threading import local, Thread, currentThread

# 定義一個local實例
local_data = local()
# 在主線中，存入name這個變數
local_data.name = 'local_data'


class MyThread(Thread):
    def run(self):
        print("賦值前-子線程：", currentThread(),local_data.__dict__)
        # 在子線程中存入name這個變數
        local_data.name = self.getName()
        print("賦值後-子線程：",currentThread(), local_data.__dict__)


if __name__ == '__main__':
    print("開始前-主線程：",local_data.__dict__)

    t1 = MyThread()
    t1.start()
    t1.join()

    t2 = MyThread()
    t2.start()
    t2.join()

    print("結束後-主線程：",local_data.__dict__)

來看看輸出結果

開始前-主線程： {'name': 'local_data'}

賦值前-子線程： <MyThread(Thread-1, started 4832)> {}
賦值後-子線程： <MyThread(Thread-1, started 4832)> {'name': 'Thread-1'}

賦值前-子線程： <MyThread(Thread-2, started 5616)> {}
賦值後-子線程： <MyThread(Thread-2, started 5616)> {'name': 'Thread-2'}

結束後-主線程： {'name': 'local_data'}

從輸出來看，我們可以知道，local實際是一個字典型的對象，其內部可以以key-value的形式存入你要做信息隔離的變數。local實例可以是全局唯一的，只有一個。因為你在給local存入或訪問變數時，它會根據當前的線程的不同從不同的存儲空間存入或獲取。

基於此，我們可以得出以下三點結論：

主線程中的變數，不會因為其是全局變數，而被子線程獲取到；

主線程也不能獲取到子線程中的變數；

子線程與子線程之間的變數也不能互相訪問。

所以如果想在當前線程保存一個全局值，並且各自線程（包括主線程）互不幹擾，使用local類吧。

. 信息隔離的意義何在

細心的你，一定已經發現了，上面那個例子，即使我們不用threading.local來做信息隔離，兩個線程self.getName()本身就是隔離的，沒有任何關係的。因為這兩個線程是由一個class實例出的兩個不同的實例對象。自然是可以不用做隔離，因為其本身就是隔離的。

但是，現實開發中。不可排除有多個線程，是由一個class實例出的同一個實例對象而實現的。

譬如，現在新手特別喜歡的爬蟲項目。通常都是先給爬蟲一個主頁，然後獲取主頁下的所有鏈接，對這個鏈接再進行遍歷，一直往下，直到把所有的鏈接都爬完，獲取到我們所需的內容。

由於單線程的爬取效率實在是太低了，我們考慮使用多線程來工作。先使用socket和www.sina.con.cn建立一個TCP連接。然後在這個連接的基礎上，對主頁上的每個鏈接（我們這裡只舉news.sina.com.cn和blog.sina.com.cn這兩個子鏈接做例子）創建一個線程，這樣效率就高多了。

友情提醒：
以下代碼，若要理解，可能需要你瞭解下socket的網路編程相關內容。我在前幾天的文章中有發佈一篇相關的文章，沒有基礎的同學可以先去看看那篇文章。

import threading
from functools import partial
from socket import socket, AF_INET, SOCK_STREAM

class LazyConnection:
    def __init__(self, address, family=AF_INET, type=SOCK_STREAM):
        self.address = address
        self.family = AF_INET
        self.type = SOCK_STREAM
        self.local = threading.local()

    def __enter__(self):
        if hasattr(self.local, 'sock'):
            raise RuntimeError('Already connected')
        # 把socket連接存入local中
        self.local.sock = socket(self.family, self.type)
        self.local.sock.connect(self.address)
        return self.local.sock

    def __exit__(self, exc_ty, exc_val, tb):
        self.local.sock.close()
        del self.local.sock

def spider(conn, website):
    with conn as s:
        header = 'GET / HTTP/1.1\r\nHost: {}\r\nConnection: close\r\n\r\n'.format(website)
        s.send(header.encode("utf-8"))
        resp = b''.join(iter(partial(s.recv, 100000), b''))
    print('Got {} bytes'.format(len(resp)))

if __name__ == '__main__':
    # 建立一個TCP連接
    conn = LazyConnection(('www.sina.com.cn', 80))

    # 爬取兩個頁面
    t1 = threading.Thread(target=spider, args=(conn,"news.sina.com.cn"))
    t2 = threading.Thread(target=spider, args=(conn,"blog.sina.com.cn"))
    t1.start()
    t2.start()
    t1.join()
    t2.join()

輸出結果

Got 765 bytes
Got 513469 bytes

如果是在這種場景下，要做到線程之間的狀態信息的隔離，就肯定要藉助threading.local，所以threading.local的存在是有存在的意義的。其他還有很多場景是必須藉助threading.local才能實現的，而這些就要靠你們在真正的業務開發中去發現咯。

好了，今天就講這些內容。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

簡說設計模式——裝飾模式

一、什麼是裝飾模式裝飾模式（Decorator），動態地給一個對象添加一些額外的職責，就增加功能來說，裝飾模式比生成子類更靈活。UML結構圖如下：其中，Component是抽象構件，定義一個對象介面，可以給這些對象動態地添加職責；ConreteComponent定義一個具體對象，也可以給這個對象 ...
別人笑我太瘋癲，我只是有點傻

剛畫出來的，裡邊配的騷詞出自本人，夠騷吧！ ...
Java反射-修改欄位值, 反射修改static final修飾的欄位

Java反射, 修改欄位值, 實例化對象, 繞過構造器來實例化對象 ...
Elixir 分散式平臺

概述分散式平臺的核心在於併發，容錯。而 Elixir 的優勢正是在於對於併發和容錯的處理。分散式模型 1. CSP(Communicating Sequential Process) 模型 :: 多個進程通過管道(channel)進行交互 2. Actor 模型 :: 每個進程管理自己的內部狀 ...
Java開源生鮮電商平臺-購物車模塊的設計與架構(源碼可下載）

ava開源生鮮電商平臺-購物車模塊的設計與架構(源碼可下載）說明：任何一個電商無論是B2C還是B2B都有一個購物車模塊，其中最重要的原因就是客戶需要的東西放在一起，形成一個購物清單，確認是否有問題，然後再進行下單與付款. 1. 購物車資料庫設計：說明：業務需求： 1》購物車裡面應該存放，那個買家 ...
MySQL（九）

封裝觀察前面的文件發現，除了sql語句及參數不同，其它語句都是一樣的創建MysqlHelper.py文件，定義類添加創建testInsertWrap.py文件，使用封裝好的幫助類完成插入操作查詢一個創建testGetOneWrap.py文件，使用封裝好的幫助類完成查詢最新一行數據操作實 ...
基於ubuntu16.04快速構建Hyperledger Fabric網路

前言最近在參加一個比賽,使用到了區塊鏈的開源軟體 ,由於之前從未接觸過區塊鏈,以及和區塊鏈開發相關的內容,所有在網上查閱了大量的資料,並且通過學習 "yeasy(楊寶華)" 開源的入門書籍 "區塊鏈技術指南" 以及進階學習的《區塊鏈原理、設計與應用》,對區塊鏈的一些相關概念有了一定認識。這裡記錄的 ...
JVM GC-----垃圾回收演算法

說到Java，一定繞不開GC，儘管不是Java首創的，但Java一定是使用GC的代表。GC就是垃圾回收，更直接點說就是記憶體回收。是對記憶體進行整理，從而使記憶體的使用儘可能大的被覆用。一直想好好寫一篇關於GC的文章，可是卻發現要寫的東西太大了，不是一篇博客能簡單的介紹完的。所以打算拆分成若幹篇博客，一 ...