3D human pose estimation in video with temporal convolutions and semi-supervised training 論文理解

-Advertisement-

寫在前面 Facebook 開源的VideoPose3D模型致力於實現準確的人體骨骼3D重建。其效果令人驚嘆，只需要使用手機相機就可以實現相似的效果。而一旦技術成熟，這種人體骨骼的三維重建在很多領域將會產生顛覆性的應用。但是到目前為止，該技術還是有很多不足，其中制約該技術商業化運用的一個最大難點 ...

寫在前面

Facebook 開源的VideoPose3D模型致力於實現準確的人體骨骼3D重建。其效果令人驚嘆，只需要使用手機相機就可以實現相似的效果。

而一旦技術成熟，這種人體骨骼的三維重建在很多領域將會產生顛覆性的應用。

但是到目前為止，該技術還是有很多不足，其中制約該技術商業化運用的一個最大難點在於源碼理解困難，模型是純純黑盒。因此本文將嘗試理解該論文的實現方法。

介紹

論文一開始就闡述了核心技術，即使用2D關鍵點預測3D姿勢，最後再將3D姿勢反向投影回原先的2D關鍵點(半監督方法)。

並且作者聲稱在2D關鍵點預測3D時使用了時間捲積架構(temporal convolutions)，讓模型可以一次看見多個幀，從而提升3D姿態估計的準確性。

並且作者還介紹了一個基於半監督學習的技術方法，以提高標記 3D 真實姿態數據的的準確性。

這裡的幾個關鍵詞分別是:

2D關鍵點: 通過基於2D圖像檢測技術獲取的人體2D關鍵點。相關的技術庫主要有：Detectron,Openpose 等。

需要註意的是，這種技術僅檢測在圖片的2D坐標系內出現的人體骨骼關鍵點，並不包含深度信息(也就是第三軸)，因此無法建立3D模型。

3D姿勢: 相對於上文的2D關鍵點，3D姿勢也可以說成是3D關鍵點，VideoPose3D模型通過獲取的2D關鍵點為這些關鍵點添加了深度信息，從而建立了3D模型。這也是這個模型的魅力所在。

將3D姿勢反向投影回原先的2D關鍵點，監督學習的技術方法：這兩個關鍵詞說的其實是一個技術。即在大量的未標記視頻中(例如油管視頻)，通過2D關鍵點檢測技術生成2D關鍵點之後，應用VideoPose3D生成3D關鍵點，，之後，再將生成的3D關鍵點投影回原來的2D空間中，這時就會發現，你有兩套2D關鍵點了，一套是通過2D關鍵點檢測技術生成的2D關鍵點，另一套是3D關鍵點投影回來的2D關鍵點。然後就可以通過計算這兩套關鍵點之間的誤差來評價生成的3D模型的效果了。因此被稱為半監督學習的技術方法。而且作者借鑒了對抗神經網路(GAN)的理念，在兩套關鍵點差異過大時對模型予以懲罰，從而可以大量生成標記數據集，，，這真是挺強的。這個技術的理解難點在於將3D姿勢反向投影回2D，因為由VideoPose3D模型預測出來的3D關鍵點僅僅是各個關節的相對位置，而不包含當前世界場景下的絕對位置(也就是說，你不知道人物在視頻中的移動軌跡)，所以如果想要將3D關鍵點反向投影回2D的話，必須要獲得人物的身體中心(或者原點)的移動軌跡，然後再將3D關鍵點投影上去。為此，作者還專門寫了一個軌跡模型(Trajectory model)用於預測人體在3D空間內的軌跡。但是作者沒有細說軌跡模型的實現方法。

時間捲積架構(temporal convolutions)：

作者們利用了捲積神經網路的特性，讓模型可以一次'看見'時間軸上的先後的多個動作(視頻的幀)，從而更好地估計3D姿態。這也是我認為本文的第二大創新點。
試想，讓你只看一張圖片就估計一個物體(人)的3D姿勢，和讓你包含了一個人連續動作的多個圖片來估計3D姿勢，可能後者會來得更準確一些。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

如何實現一個狀態機？

何為狀態機? 從字面上簡單粗暴地理解，狀態機是一個跟狀態有關的機器，但其實狀態機並不是一種物理機器，而是一種模型，一種表達事物狀態及狀態變化過程的數學模型。狀態機全稱是有限狀態機（finite-state machine，縮寫：FSM）或者有限狀態自動機（finite-state automato ...
分散式事務(Seata)

前言在分散式的微服務架構中，鑒於服務單一職責性，各個微服務都分佈在不同的伺服器節點，且每1個微服務是獨立的；在後端每個微服務都是分散和獨立的，可能使用不同編程語言，使用不同的資料庫，通過RPC調用完成前端用戶發送的請求（任務）；假設1個用戶在1個分散式微服務架構的電商網站購物，購買了1件商品點 ...
Java泛型不允許擴展Exception和Throwable類

golang拾遺主要是用來記錄一些遺忘了的、平時從沒註意過的golang相關知識。很久沒更新了，我們先以一個謎題開頭練練手： package main import ( "encoding/json" "fmt" "time" ) type MyTime time.Time func main() ...
Java中如何避免死鎖呢？

1.認識ORM ORM ( Object Relation Mapping )是對象/關係映射。它提供了概念性的、易於理解的數據模型，將資料庫中的表和記憶體中的對象建立映射關係。它是隨著面向對象的軟體開發方法的發展而產生的，面向對象的開發方法依然是當前主流的開發方法。對象和關係型數據是業務實體的兩種 ...
泛型通配符？(問號)簡介說明

Allure的簡單使用 1.Allure簡介簡單的理解下，可以把Allure當成一個用於生成美觀測試報告的開源工具，配合Pytest測試框架使用更佳。也就是說，Allure是在Pytest執行測試用例結束後生成的測試數據的基礎上，對測試數據進行進一步處理、統計，生成格式統一、美觀的測試報告，並通 ...
如何定義一個泛型介面呢？

集合 1.集合的作用在java中我們可以使用數組來保存多個對象，但是數組的長度不可變。如果需要保存數量變化的數據，數據就不太合適了。為了保存數量不確定的數據，以及保存具有映射關係的數據（也被稱為關聯數組），Java 提供了集合類。**集合類主要負責保存、盛裝其他數據，因此集合類也被稱為容器類** ...
如何定義一個泛型類呢？

複合數據類型數組長度固定，有零個或者多個元素組成。預設情況下，數組的每個元素都被初始化為元素類型零值。如果數組的長度位置出現...，則表示數組長度是根據初始值的個數來計算。如：q := [...]int{1, 2, 3} 如果指定索引和對應值列表的方式初始化，這種情形下初始化索引的順序是無關 ...
Python生成字母對後寫入文件

一、人生苦短，我用Python 1、案例背景生成字母對並寫入文件，並將結果寫入文件中。文件中每行為: ab cd ef gh 2、主要知識點文件讀寫基礎語法 zip 函數字元串步長截取 3、素材二、代碼展示創建一個py文件夾咱們先導入需要用的模塊 import platform im ...