3D human pose estimation in video with temporal convolutions and semi-supervised training 論文理解

来源:https://www.cnblogs.com/SongLink/archive/2022/07/20/16498411.html
-Advertisement-
Play Games

寫在前面 Facebook 開源的VideoPose3D模型致力於實現準確的人體骨骼3D重建。其效果令人驚嘆,只需要使用手機相機就可以實現相似的效果。 而一旦技術成熟,這種人體骨骼的三維重建在很多領域將會產生顛覆性的應用。 但是到目前為止,該技術還是有很多不足,其中制約該技術商業化運用的一個最大難點 ...


寫在前面

Facebook 開源的VideoPose3D模型致力於實現準確的人體骨骼3D重建。其效果令人驚嘆,只需要使用手機相機就可以實現相似的效果。
image
而一旦技術成熟,這種人體骨骼的三維重建在很多領域將會產生顛覆性的應用。

但是到目前為止,該技術還是有很多不足,其中制約該技術商業化運用的一個最大難點在於源碼理解困難,模型是純純黑盒。因此本文將嘗試理解該論文的實現方法。

介紹

論文一開始就闡述了核心技術,即使用2D關鍵點預測3D姿勢,最後再將3D姿勢反向投影回原先的2D關鍵點(半監督方法)。

並且作者聲稱在2D關鍵點預測3D時使用了時間捲積架構(temporal convolutions),讓模型可以一次看見多個幀,從而提升3D姿態估計的準確性。

並且作者還介紹了一個基於半監督學習的技術方法,以提高標記 3D 真實姿態數據的的準確性。

這裡的幾個關鍵詞分別是:

2D關鍵點: 通過基於2D圖像檢測技術獲取的人體2D關鍵點。相關的技術庫主要有:Detectron,Openpose 等。
image

需要註意的是,這種技術僅檢測在圖片的2D坐標系內出現的人體骨骼關鍵點,並不包含深度信息(也就是第三軸),因此無法建立3D模型。

3D姿勢: 相對於上文的2D關鍵點,3D姿勢也可以說成是3D關鍵點,VideoPose3D模型通過獲取的2D關鍵點為這些關鍵點添加了深度信息,從而建立了3D模型。這也是這個模型的魅力所在。

將3D姿勢反向投影回原先的2D關鍵點監督學習的技術方法:這兩個關鍵詞說的其實是一個技術。即在大量的未標記視頻中(例如油管視頻),通過2D關鍵點檢測技術生成2D關鍵點之後,應用VideoPose3D生成3D關鍵點,,之後,再將生成的3D關鍵點投影回原來的2D空間中,這時就會發現,你有兩套2D關鍵點了,一套是通過2D關鍵點檢測技術生成的2D關鍵點,另一套是3D關鍵點投影回來的2D關鍵點。然後就可以通過計算這兩套關鍵點之間的誤差來評價生成的3D模型的效果了。因此被稱為半監督學習的技術方法。而且作者借鑒了對抗神經網路(GAN)的理念,在兩套關鍵點差異過大時對模型予以懲罰,從而可以大量生成標記數據集,,,這真是挺強的。這個技術的理解難點在於將3D姿勢反向投影回2D,因為由VideoPose3D模型預測出來的3D關鍵點僅僅是各個關節的相對位置,而不包含當前世界場景下的絕對位置(也就是說,你不知道人物在視頻中的移動軌跡),所以如果想要將3D關鍵點反向投影回2D的話,必須要獲得人物的身體中心(或者原點)的移動軌跡,然後再將3D關鍵點投影上去。為此,作者還專門寫了一個軌跡模型(Trajectory model)用於預測人體在3D空間內的軌跡。但是作者沒有細說軌跡模型的實現方法。

時間捲積架構(temporal convolutions):

作者們利用了捲積神經網路的特性,讓模型可以一次'看見'時間軸上的先後的多個動作(視頻的幀),從而更好地估計3D姿態。這也是我認為本文的第二大創新點。
試想,讓你只看一張圖片就估計一個物體(人)的3D姿勢,和讓你包含了一個人連續動作的多個圖片來估計3D姿勢,可能後者會來得更準確一些。

image


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 何為狀態機? 從字面上簡單粗暴地理解,狀態機是一個跟狀態有關的機器,但其實狀態機並不是一種物理機器,而是一種模型,一種表達事物狀態及狀態變化過程的數學模型。 狀態機全稱是有限狀態機(finite-state machine,縮寫:FSM)或者有限狀態自動機(finite-state automato ...
  • 前言 在分散式的微服務架構中,鑒於服務單一職責性,各個微服務都分佈在不同的伺服器節點,且每1個微服務是獨立的; 在後端每個微服務都是分散和獨立的,可能使用不同編程語言,使用不同的資料庫,通過RPC調用完成前端用戶發送的請求(任務); 假設1個用戶在1個分散式微服務架構的電商網站購物,購買了1件商品點 ...
  • golang拾遺主要是用來記錄一些遺忘了的、平時從沒註意過的golang相關知識。 很久沒更新了,我們先以一個謎題開頭練練手: package main import ( "encoding/json" "fmt" "time" ) type MyTime time.Time func main() ...
  • 1.認識ORM ORM ( Object Relation Mapping )是對象/關係映射。它提供了概念性的、易於理解的數據模型,將資料庫中的表和記憶體中的對象建立映射關係。它是隨著面向對象的軟體開發方法的發展而產生的,面向對象的開發方法依然是當前主流的開發方法。 對象和關係型數據是業務實體的兩種 ...
  • Allure的簡單使用 1.Allure簡介 簡單的理解下,可以把Allure當成一個用於生成美觀測試報告的開源工具,配合Pytest測試框架使用更佳。 也就是說,Allure是在Pytest執行測試用例結束後生成的測試數據的基礎上,對測試數據進行進一步處理、統計,生成格式統一、美觀的測試報告,並通 ...
  • 集合 1.集合的作用 在java中我們可以使用數組來保存多個對象,但是數組的長度不可變。如果需要保存數量變化的數據,數據就不太合適了。為了保存數量不確定的數據,以及保存具有映射關係的數據(也被稱為關聯數組),Java 提供了集合類。**集合類主要負責保存、盛裝其他數據,因此集合類也被稱為容器類** ...
  • 複合數據類型 數組 長度固定,有零個或者多個元素組成。 預設情況下,數組的每個元素都被初始化為元素類型零值。 如果數組的長度位置出現...,則表示數組長度是根據初始值的個數來計算。如:q := [...]int{1, 2, 3} 如果指定索引和對應值列表的方式初始化,這種情形下初始化索引的順序是無關 ...
  • 一、人生苦短,我用Python 1、案例背景 生成字母對並寫入文件,並將結果寫入文件中。 文件中每行為: ab cd ef gh 2、主要知識點 文件讀寫 基礎語法 zip 函數 字元串步長截取 3、素材 二、代碼展示 創建一個py文件夾 咱們先導入需要用的模塊 import platform im ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...