“數據孤島”簡單的講,各組織都持有各自的數據,這些數據之間互有關係但又獨立存儲於各組織。出於安全性、合規性等方面考慮,各組織只能查詢、使用己方數據,無法交換其它組織的數據。在聯邦學習出現前,針對數據隱私保護的密碼學已應用於本地數據機器學習,隨著“數據孤島”問題的浮現,聯邦學習的概念出現併發展的日益成... ...
本文分享自天翼雲開發者社區《隱私計算之淺談聯邦學習》 作者:l****n
一、背景
“數據孤島”簡單的講,各組織都持有各自的數據,這些數據之間互有關係但又獨立存儲於各組織。出於安全性、合規性等方面考慮,各組織只能查詢、使用己方數據,無法交換其它組織的數據。在聯邦學習出現前,針對數據隱私保護的密碼學已應用於本地數據機器學習,隨著“數據孤島”問題的浮現,聯邦學習的概念出現併發展的日益成熟。
二、聯邦學習的概念
聯邦學習的術語最早是McMahan等提出的,即“我們把我們的方法稱為聯邦學習,因為學習任務是由一個鬆散的聯邦參與設備(我們稱之為客戶端)來解決的,而這個聯邦設備是由一個中央伺服器來協調的”。在比較權威的論文中有關於它的進一步定義便於我們理解:
聯邦學習是一種機器學習設置,在中央伺服器或服務提供商的協調下,多個實體(客戶端)協作解決機器學習問題。每個客戶的原始數據都存儲在本地,不進行交換和傳輸;作為替代,通過特定的中間運算結果的傳輸和聚合來達到機器學習模型訓練的目標。
而根據數據的分佈形式,聯邦學習可以分為三種:縱向聯邦學習、橫向聯邦學習和遷移學習。縱向聯邦限定各個聯邦成員提供的數據集樣本有足夠大的交集,特征具有互補性,模型參數分別存放於對應的聯邦成員內,並通過聯邦梯度下降等技術進行優化。橫向聯邦限定各個聯邦成員提供的數據集特征含義相同、模型參數結構相同,並使用聯邦平均等隱私保護技術生成聯邦模型。遷移學習既不限定數據集的特征含義相同,也不需要樣本有交集,是一種在相似任務上傳播知識的方法。
三、解決“數據孤島”問題的難點與聯邦學習的優勢
難點:
1、數據安全保護。將不同組織的數據共用,除了數據泄露問題,還要考慮數據投毒攻/擊等。
2、數據傳輸速度與成本。
3、數據定價難。
優勢:
1、安全性:通過引入密碼演算法和其它多方安全計算方案,保證了在多方交互過程中只用到交集部分,差集部分不會出現數據泄露。
2、無損性:採用的同態加密技術保證了各方原始數據不會被傳輸,且加密的數據具有可計算性。
3、公平性:保證了參與方的公平性,讓各參與方在數據獨立的條件下建立聯合訓練模型。