徐童:視頻人物社交關係圖生成與應用

来源:https://www.cnblogs.com/datafuntalk/archive/2022/05/21/16295017.html
-Advertisement-
Play Games

導讀: 線上社交媒體平臺的發展,帶來了細粒度檢索、視頻語義摘要等媒體智能服務的巨大需求。現有的視頻理解技術缺乏深入的語義線索,結合視頻中人物的社交關係才能更完整、準確地理解劇情,從而提升用戶體驗,支撐智能應用。這裡主要介紹我們將動態分析和圖機器學習相結合,圍繞視頻中的人物社交關係網路所開展的兩個最新 ...


file


導讀: 線上社交媒體平臺的發展,帶來了細粒度檢索、視頻語義摘要等媒體智能服務的巨大需求。現有的視頻理解技術缺乏深入的語義線索,結合視頻中人物的社交關係才能更完整、準確地理解劇情,從而提升用戶體驗,支撐智能應用。這裡主要介紹我們將動態分析和圖機器學習相結合,圍繞視頻中的人物社交關係網路所開展的兩個最新的工作。主要內容包括:

  • 問題背景
  • 關係圖生成
  • 關係圖應用
  • 未來展望

--

01 問題背景

** 1. 現有視頻理解技術缺乏深入語義線索**

file

現有的視頻理解技術更多地著眼於描述畫面裡人物的行為、動作、身份,很少關註更深層的語義信息。例如上圖中讓子彈飛的例子,現有演算法理解的是“兩個人坐在一起,一個人表情憤怒,另一個人表情開心”,但由於缺乏深入的語義線索,不能解釋這兩個人為什麼表情各異地坐在一起,對劇情的理解其實就不完整,不准確。在視頻理解當中,除了淺層的“所得即所見”之外,還需要更多深層的“所得不可見”的語義挖掘。在多種多樣的語義線索中間,人物社交關係是最核心的線索。

2. 視頻人物社交關係相關研究

file

在2015年前後就已經有了圖像社交關係識別的研究,其中經典的工作包括PIPA(Zhang et al. 2015)、PISC(Li et al. 2017),主要解決的問題是在靜態圖片上理解圖片中兩個人物之間的關係。但由於靜態圖片本身包含的信息量較少,無法描繪完整的動作和互動行為。到2018年-2019年,社交關係識別任務逐漸推廣到了視頻,產生了MovieGraphs、ViSR等廣為人知的數據集。相比於圖片來說,視頻包含時序信息、人物完整的動作等,信息更加豐富,建模工作相對來說也更加充實。接下來介紹兩篇相關的工作。

file

CVPR 2019的一個工作提出了MSTR框架,通過整合視頻中的時間域和空間域的信息,來幫助我們理解人物之間的關係。具體來說,如模型框架圖中間部分所示,MSTR採用了三個圖結構,分別是針對同一個人的 Intra Graph、人物之間的Inter Graph、描述人和物之間交互的 Triple Graph。在這三張圖的基礎上,分別採用了TSN和GCN來描述時間和空間上的信息,最後把時間域和空間域兩個向量拼接起來,作為關係分類的一個特征。

file

MSTR在一些數據集上取得了很好的效果,但這個框架重點是描述人物之間的互動行為,與社交關係存在一定的差異。例如對視,微笑到擁抱這樣一組互動行為,既可能發生在情侶之間,也可能發生在好朋友之間。這時互動行為會對人物關係產生一些干擾。

file

針對上面的問題,我們在去年有一個相關工作,嘗試增加視頻中的文本信息,包括臺詞、實時彈幕,強化對人物關係的判斷。文中採用多通道特征提取網路的框架,融合某一幀畫面以及對應的文本信息,得到融合後的向量表徵,實現關係分類任務。

file

通過多模態的信息引入,相比於單模態的方法,效果有明顯提升。另外,在之前MSTR的工作中,要預測兩個人物之間的關係,要求這兩個人必須同時出現,才能得到他們之間的互動行為。但在我們的工作中,即使兩個人沒有同時出現,通過人物對話中對關係的描述,可以間接得到人物關係。

file

上面工作的局限性在於,沒有充分利用人物之間社交關係的傳遞性。如果站在全局視角,獲得完整的社交關係圖,能更充分地發揮社交關係相互佐證的作用。下麵重點分享下如何生成社交關係圖。

--

02 關係圖生成

file

我們提出了層次累積的圖捲積網路,一方面整合了短期的視覺、文本、聽覺等線索,另一方面,通過兩個層次的圖捲積網路,生成全局的社交關係圖。其中包含三個模塊:

  • **幀級別圖捲積網路
  • 多通道時序累積
  • 片段級圖捲積網路**

1. 幀級別圖捲積網路

file

幀級別圖捲積網路模塊的核心目的是生成幀級別的關係子圖,描述當前幀中人物社交關係。為瞭解決單幀信息量較少的問題,除了融合多模態信息之外,這裡還加入了特殊類型的節點。例如上圖紅框中標出來的部分,每一張graph對應一個幀級別的子圖。C開頭的是單個人物的節點,基於人物檢測或人物重識別的技術來識別。P節點是表示人物pair對的節點,G節點描述背景信息,T節點表示當前幀前後幾十秒的文本信息。利用圖捲積網路信息傳遞的特點整合這些信息,強化人物節點的表徵。

** 2. 多通道時序累積**

file

多通道時序累積模塊的目的是表達幀和幀之間人物關係的動態變化。這裡使用了兩個LSTM,第一個LSTM用在C類型節點(人物外觀姿態的變化),第二個LSTM用於P類型節點(人物之間交互行為的變化),用於捕捉單個人物以及人物之間交互的變化。

3. 片段級圖捲積網路

file

片段集圖捲積網路模塊的目的是整合幀級別的子圖,得到片段級的人物關係圖。片段級別中包含的信息量比較豐富。有人物、人物之間完整的動作行為、一個完整的小情節,有相對完整的對話信息,不需要太多的輔助信息。因此在上圖紅框中標出來的子圖裡,只包含了C和P兩個類型的節點。另外,這裡額外把片段中的對話音頻信息也加入進來,對應圖中最右的藍色框,此時特征向量中已經包含了視頻、音頻、文本的信息。

4. 模型訓練方式

file

整個模型的訓練基於弱監督學習的方式來實現。對標註者而言,逐幀標註人物之間的關係是幾乎不可能完成的任務。這裡能夠獲得的label只有片段級的人物關係,直接用於訓練幀級別的網路存在一定的雜訊,這裡通過設計弱監督的損失函數來解決這個問題,只圍繞片段級的圖捲積網路來做訓練。

5. 實驗結果

file

我們在兩個數據集上進行了驗證:公開數據集ViSR,還有自己構造的bilibili數據集。在兩個數據集上都取得了不錯的效果,由於bilibili數據包含了彈幕,文本信息更加豐富,效果也更加優越。模型中有兩個有趣的發現:

  • 敵對關係比友好關係更難識別。由於敵對關係之間的互動較少,能夠捕捉到的線索較少。
  • 部分友好關係存在混淆。例如親屬、朋友之間體現的互動和傳遞作用中較為類似。

file

第一個片段例子表明,片段中涉及的人物越多,我們的模型優勢越大。因為此時片段子圖規模更大,更稠密,社交關係相互印證的作用更明顯。

第三個片段例子中,從視覺上看是敵對關係,但在故事後期兩人發展成了情侶。也就是說隨著劇情發展,人物之間的關係是不斷變化的,這也啟發了我們對於後續工作的靈感。

--

03 關係圖應用

1. 視頻人物社交關係圖應用概覽

file

人物社交關係圖可以有效提升用戶體驗,支撐語義的智能應用。

  • 社交關係圖本身可以幫助觀眾更好地理解劇情。
  • 智能應用:劇情片段描述、劇情因果串聯。例如在哈利波特第一部,斯內普對哈利看似十分不滿,但在關鍵時刻又總是幫助他,令人費解。有了完整的人物關係圖之後,就能更好地解釋這些劇情。

2. 基於社交關係的視頻人物檢索

file

基於社交關係圖的視頻人物檢索,即把視頻中某一個人物出現的片段全部挖掘出來。區別於傳統的人物檢索任務,視頻人物出現的場景沒有特定場景限制,角度、衣著、行為一直在變化,傳統檢索任務中常用的重識別類方法很難獲得好的效果。此時可以利用社交關係對候選集進行篩選,實現更準確的人物識別。

file

基於上述思路,我們提出了一種基於社交感知的多模態人物檢索方法。模型的主要目的是為了對社交關係的作用進行一個初步驗證,因此沒有用複雜的結構,只用了基礎的矩陣運算和SVM,後續也會考慮如何把GCN融入進來。

file

視頻片段中間的人物框視作節點,節點之間的關係通過視覺信息+概率校準的SVM來做分類,得到類別標簽及概率。

人物關係圖作為先驗知識融合到網路中,完善視覺相似度的局限性。

  • 當兩個人物沒有正臉時,靠視覺信息很難分辨。通過社交關係,這兩個人產生交互的對象完全不同,這時可以認為這兩個人不是同一個人。
  • 有時由於姿態、光線的變化,同一個人的兩張圖片視覺相似度較低,這時也可以通過社交關係加以強化。

file

實驗結果表明,基於社交關係,通過簡單的預訓練+SVM-based關係判別就可以超過當下SOTA的純視覺人物識別效果,證明瞭這個思路的可行性。尤其是在一些有大量遮擋的極端情況下,純視覺的方法失效了,但通過社交好友關係可以幫助我們做判斷。

file

--

04 未來展望

“萬物皆可圖”,多模態內容概莫能外。動態化、語義化,是多模態+圖的未來方向。

file

多模態與圖相關技術的融合,例如視覺的分割與關聯,把左邊的圖片轉成右邊這樣的場景圖結構。但這裡主要描述的還是“所得及所見”的直接視覺關係,例如物體的位置關係、包含關係,以及人物的衣著行為等。

file

在上述描述關係的場景圖的基礎之上,目前已經可以實現對實體的關聯,支撐更細粒度的理解和任務。如圖所示,輸入查詢query “某一個人在打籃球的地方”。如果只使用實體匹配的技術,這裡認為需要找的是人和籃球,會把“人抱著籃球在場邊談話”的場景也檢索出來,如圖中最下麵的一個場景所示。如果用關係圖來描述,前三個場景與最後一個場景得到的關係圖會有很大差異,兩個實體間的邊類型不同。此時可以把檢索問題轉換成子圖相似度匹配的任務,從而獲得更加準確的檢索結果。

file

目前的場景圖中包含的主要是物體的位置關係、包含關係,以及人物的衣著行為等在畫面中顯而易見的關係。在未來,可以對場景圖增加更多動態化、語義化的線索,支撐更豐富的下游應用。
本文首發於微信公眾號“DataFunTalk”。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • #Redis簡介 Redis(Remote Dictionary Server)是完全開源的、遵守BSD協議的、高性能的Key-Value資料庫。 Redis與其他Key-Value緩存產品有一下三個特點: Redis支持數據的持久化,可以將記憶體中的數據保存在磁碟中,重啟的時候可以再次載入進行使用。 ...
  • 不久前,為了滿足工作中日常的各種實驗測試需求,終於按需求組裝一臺塔式的server T440。但是沒有多久就出現些問題,以下大概是問題和現象簡單描述: (1). 最開始時,沒幾天就出現自動重啟的問題,當時也正好做了一個比較消耗資源的大集群的實驗,當時初步判斷可能是記憶體資源不夠(實際按監控來看,並沒使 ...
  • 如何實現硬體和軟體的統一? 或者說如何把物理世界與電子學和電腦科學聯繫起來的? 寫在前面: 我一直覺得萬事萬物之間都是有聯繫的,我們現在所說的科學,有個這樣的解釋:科學科學,分科而學。以前的那些偉大的科學家們為了更好的理解這個世界,故而把物理世界進行了多層次、多維度的劃分。 今天在一個講座上,有個 ...
  • head head 命令可用於查看文件的開頭部分的內容,有一個常用的參數 -n 用於顯示行數,預設為 10,即顯示 10 行的內容。 命令格式: head [參數] [文件] 參數: -q或--quiet或--silent 不顯示包含給定文件名的文件頭即隱藏文件名。 -v或--verbose 總是顯 ...
  • 出現mysqld: Can't create directory 'D:\Environment\mysql-5.7.37 \data' (Errcode: 2 - No such file or directory)極大原因是my.ini的配置有問題 my.ini配置 [mysqld] based ...
  • 分享嘉賓:牟娜 阿裡巴巴 高級演算法工程師 編輯整理:孫鍇 內容來源:DataFun AI Talk《定向廣告新一代點擊率預估主模型——深度興趣演化網路》 出品社區:DataFun 導讀: 本次帶給大家分享是阿裡媽媽在2018年做的模型上的創新——深度興趣演化網路(Deep Interest Evol ...
  • 一、概述 Oozie是一個基於工作流引擎的開源框架,依賴於MapReduce來實現,是一個管理 Apache Hadoop 作業的工作流調度系統。是由Cloudera公司貢獻給Apache的,它能夠提供對Hadoop MapReduce和Pig Jobs的任務調度與協調。Oozie需要部署到Java ...
  • B+樹索引的正確使用 索引並不是越多越好,索引創建越多,MySQL維護的代價越高,如果SQL未能完全使用到索引,創建索引的意義是不大的。 適用條件 表x,創建索引a,b,c。主鍵y。 全值匹配 select * from x where a = '' and b = '' and c = '' 當我 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文將以 C# 語言來實現一個簡單的布隆過濾器,為簡化說明,設計得很簡單,僅供學習使用。 感謝@時總百忙之中的指導。 布隆過濾器簡介 布隆過濾器(Bloom filter)是一種特殊的 Hash Table,能夠以較小的存儲空間較快地判斷出數據是否存在。常用於允許一定誤判率的數據過濾及防止緩存 ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
  • 「簡單有價值的事情長期堅持做」 這是成功最簡單,但也最難學的秘訣。不經過訓練,人很難意識到時間複利的威力。 仙劍奇俠傳的「十里坡劍神」和金庸群俠傳的「十級野球拳」,就是簡單的事情持之以恆反覆做,最後就有巨大的威力 唐家三少成為網文收入第一,最重要的一步是十四年從未斷日更 這樣的案例很多,一開始可能成 ...
  • 迎面走來了你的面試官,身穿格子衫,挺著啤酒肚,髮際線嚴重後移的中年男子。 手拿泡著枸杞的保溫杯,胳膊夾著MacBook,MacBook上還貼著公司標語:“我愛加班”。 面試開始,直入正題。 面試官: 看你簡歷上面寫著精通MySQL,我先問你事務的特性是什麼? 老生常談,這個還有誰不會背的嗎? 我: ...
  • 基礎知識 python是一門腳本語言,它是解釋執行的。 python使用縮進做為語法,而且python2環境下同一個py文件中不能同時存在tab和空格縮進,否則會出錯,建議在IDE中顯示縮進符。 python在聲明變數時不寫數據類型,可以type(xx)來獲取欄位的類型,然後可以int(),list ...
  • 為什麼要多線程下載 俗話說要以終為始,那麼我們首先要明確多線程下載的目標是什麼,不外乎是為了更快的下載文件。那麼問題來了,多線程下載文件相比於單線程是不是更快? 對於這個問題可以看下圖。 橫坐標是線程數,縱坐標是使用對應線程數下載對應文件時花費的時間,藍橙綠代表下載文件的大小,每個線程下載對應文件2 ...
  • 詳細講解python爬蟲代碼,爬微博搜索結果的博文數據。 爬取欄位: 頁碼、微博id、微博bid、微博作者、發佈時間、微博內容、轉發數、評論數、點贊數。 爬蟲技術: 1、requests 發送請求 2、datetime 時間格式轉換 3、jsonpath 快速解析json數據 4、re 正則表達式提... ...
  • 背景: 一般我們可以用HashMap做本地緩存,但是HashMap功能比較弱,不支持Key過期,不支持數據範圍查找等。故在此實現了一個簡易的本地緩存,取名叫fastmap。 功能: 1.支持數據過期 2.支持等值查找 3.支持範圍查找 4.支持key排序 實現思路: 1.等值查找採用HashMap2 ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
  • 本章是系列文章的第八章,用著色演算法進行寄存器的分配過程。 本文中的所有內容來自學習DCC888的學習筆記或者自己理解的整理,如需轉載請註明出處。周榮華@燧原科技 寄存器分配 寄存器分配是為程式處理的值找到存儲位置的問題 這些值可以存放到寄存器,也可以存放在記憶體中 寄存器更快,但數量有限 記憶體很多,但 ...