Java版人臉跟蹤三部曲之二:開發設計

来源:https://www.cnblogs.com/bolingcavalry/archive/2023/07/07/17533885.html
-Advertisement-
Play Games

如何開發Java版人臉跟蹤應用?本篇給出了設計大綱,並解釋了相關的重要知識點 ### 歡迎訪問我的GitHub > 這裡分類和彙總了欣宸的全部原創(含配套源碼):[https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog ...


如何開發Java版人臉跟蹤應用?本篇給出了設計大綱,並解釋了相關的重要知識點

歡迎訪問我的GitHub

這裡分類和彙總了欣宸的全部原創(含配套源碼):https://github.com/zq2599/blog_demos

本篇概覽

  • 本篇是《Java版人臉跟蹤三部曲》系列的第二篇,前文體驗了人臉跟蹤的效果,想要編碼實現這樣的效果,咱們需要做好設計工作,也就是本篇的任務
  • 本篇主要包含以下內容:
  1. 核心邏輯
  2. 重要知識點:HSV、HUE
  3. 重要知識點:反向投影
  4. 重要知識點:CamShift
  5. 重要知識點:JavaCV的API支持
  6. 如何開局?
  7. 前文的完整功能分析
  8. 異常處理
  9. 期待下一篇的實戰

核心邏輯

  • 本篇沒有編碼和操作實戰,會略顯枯燥,所以提前小結人臉跟蹤核心邏輯,如此就算您受不了欣宸的啰嗦提前關閉網頁,好歹也能帶走些乾貨:
  • 如下圖所示,人臉跟蹤的核心邏輯,其實就是先拿人臉直方圖hist,然後將每一幀都轉為hist的概率分佈圖(也叫反向投影),再用MeanShift演算法在圖上做迭代計算,結果就是人臉位置:
    在這裡插入圖片描述
  • 拿到每一幀的人臉位置後,在人臉上添加一個矩形框,此時,在預覽視窗看到的效果就是視頻中人臉上始終有矩形框,實現了跟蹤的效果
  • 雖然儘可能簡短的講完了核心邏輯,但此時的您可能有一些疑問,例如:
  1. Hue分量是啥?
  2. 反向投影是啥?
  3. MeanShift又是啥?
  4. 前文提到過CamShift,這會兒咋又不提了?
  • 沒錯,上面幾個疑問就是人臉跟蹤功能依賴的關鍵技術,接下來咱們都簡單瞭解一下吧

重要知識點:HSV、HUE

  • HSV:如下圖,HSV是一種直觀的顏色空間,把色調分佈到一個圓盤上,Hue表示角度,所以Hue的值就代表一個具體的色調,然後,Saturation看做飽和度(我的感覺是添加黑色),把Value看做亮度(我的感覺是添加白色),剛纔提到的Hue分量,其實就是指Hue的值,(Saturation和Value的值在後面的演算法中不會用到)
    在這裡插入圖片描述
  • 再來仔細看看圓盤中Hue的值對應的色調:
    在這裡插入圖片描述

重要知識點:反向投影

  • 在使用JavaCV的CamShift演算法API時,最重要的入參就是反向投影,每一幀最終都會被轉成反向投影,也就是前面提到的用人臉Hue分量的直方圖將第X幀轉化成色彩概率分佈圖
  • 反向投影圖是用輸入圖像的某一位置上像素值(多維或灰度)對應在直方圖的一個bin上的值來代替該像素值
  • 反向投影在OpenCV中會經常見到,一般使用場景是在一個圖像中查找特定圖像的最匹配點或區域,或者說定位目標圖像出現在指定圖像的位置
  • 來看看用一張圖片製作反向投影的過程,如下所示,先根據人臉得到直方圖,然後對每一張圖片都用這個直方圖去計算出反向投影圖(也就是拿著人臉直方圖,去每一幀圖片中計算人臉在此圖片中的色彩概率分佈),JavaCV為我們準備好了API(Imgproc.calcBackProject),我們只需準備好API所需參數即可:
    在這裡插入圖片描述
  • 有了上面的流程,就能對每幀圖片做反向投影,得到人臉在這張圖片上的概率分佈圖,然後用MeanShitf演算法對這個概率分佈圖做迭代計算,直到其收斂或者到達最大迭代次數,確定人臉在圖片上的位置

重要知識點:CamShift演算法

  • 實現人臉跟蹤的關鍵是CamShift,全稱ContinuouslyAdaptive Mean Shift,即連續自適應的MeanShift演算法
  • Mean Shift演算法是一種無參密度估計演算法,不需要任何先驗知識而完全依靠特征空間中樣本點的計算其密度函數值,在很多領域都有成功應用,例如圖像平滑、圖像分割、物體跟蹤等,本篇不會展開細說Mean Shift演算法,就用下麵這幅圖簡單說說,
    在這裡插入圖片描述
  1. 上圖每個圓心是一個質心,
  2. 以質心為原點畫一個圓圈,圓圈內有很多紅點
  3. 圓圈內每個點與圓心構成一個向量,把圓圈內向量相加,得到新的向量就是meanshift向量,即黃色箭頭
  4. 以meanshift向量的重點為圓心,再畫一個圓圈,在此圓圈內執行步驟3
  5. 不斷重覆上述過程,著該向量移動便能找到密度最大處,就是最終結果
  • 向量-> 移動 -> 向量 -> 移動,這和梯度下降有些相似之處啊
  • 以上就是meanshif演算法,而將meanshift演算法擴展到連續圖像序列,就是camshift,它將視頻的連續幀做meanshift
    計算,用上一幀結果作為下一幀meanshift演算法搜索窗的初始值,來調整下一幀的中心位置和窗體大小,如此迭代下去,就可以實現對目標的跟蹤。
  • 對應到OpenCV的實現中,就是輸入一個圖像(probImage),再輸入一個開始迭代的視窗(window),以及迭代條件(criteria),而輸出,就是迭代完成的位置(RotatedRect);

重要知識點:JavaCV對CamShift的支持

  • 關於核心功能的理論已經聊得七七八八了,再來看看JavaCV對核心知識點提供了哪些具體的API支持,如下表所示,前面涉及到的關鍵技術都覆蓋到了:
序號 API 作用
1 Imgproc.cvtColor 從攝像頭拿到的幀,其顏色空間是RGB格式的,需要轉為HSV格式
2 Core.mixChannels 將HSV圖片的Hue分量提取到另一個Mat中
3 Imgproc.calcHists 生成直方圖
4 Imgproc.calcBackProject 生成反向投影
5 Video.CamShift 在反向投影圖上執行CamShift計算
  • 至此,核心技術算是分析完了,但僅有核心技術是不夠的,需要有主程式、分支邏輯、異常處理等諸多努力,才能實現完整的功能,接下來就以開發者的視角,開始咱們的開發設計
  • 首先要搞清楚的是:如何確定最初的那個人臉?

如何開局?

  • 在設計過程中,咱們要面臨的第一個問題就是如何開局?換句話說:從哪裡拿到人臉,用於生成直方圖,並找好位置作為下一幀做CamShift計算的起始位置
  • 如果您之前在網上搜索過CamShift的文章,會發現大多都是用戶用滑鼠在預覽視窗選定一個區域,然後程式取這個區域作為跟蹤對象
  • 但是,欣宸這裡不會沿用上述手動選擇的方式,如果您之前看過《JavaCV的攝像頭實戰》系列,會發現該系列經常用到JavaCV提供的人臉檢測功能,因此,咱們繼續使用這個人臉檢測功能來開局
  • 簡單來說,當程式運行後,如果攝像頭中出現了人臉,那麼該人臉就被自動作為跟蹤對象,會被計算Hue直方圖,並且人臉位置也是下一幀做CamShift計算的起始位置
  • 為了簡單起見,假設攝像頭中只會出現一個人臉,代碼處理也只針對一個人臉的場景
  • 如果您想瞭解人臉檢測的更多細節,請參考《JavaCV的攝像頭實戰之八:人臉檢測》

前文的完整功能分析(重要)

  • 咱們在前文體驗的是一個功能完整的java應用,為了編碼實現這個應用,自然是要先分析一下這個應用的主要流程
  • 來看看完整的應用主流程,如下圖,檢測到人臉後,就用此人臉生成直方圖,對之後的每一幀都用反向投影+CamShift計算人臉位置,如果位置有效就表示跟蹤成功,在圖上添加矩形框,如果位置無效,表示跟蹤失敗(例如人已經離開攝像頭),此時再不斷的檢測每一幀有沒有人臉,一旦檢測到,就重覆前面的直方圖和CamShift計算邏輯:
    在這裡插入圖片描述
  • 以上就是主流程了,也就是大部分時間中應用的運行狀態,相信此刻的您已經受夠了這些文字和圖表,迫不及待的想要敲打鍵盤,寫出自己心目中的人臉跟蹤應用,但我還是要強行勸您一句:咱們把異常流程也梳理和羅列一下,否則程式運行的時候會出現各種靈異現象,十分鐘寫代碼,一小時查問題...

異常處理

  • 在實際運行過程中,可能會遇到以下六個問題:
  1. 提前準備必要文件之一,opencv在windows環境的動態鏈接庫,下載地址(不用積分):

  1. 提前準備必要文件之二,人臉檢測的模型文件,下載地址:https://raw.github.com/opencv/opencv/master/data/haarcascades/haarcascade_frontalface_alt.xml
  2. native方法異常:BGR實例轉為javacv的RGBA時,opencv_imgproc.cvtColor可能拋出異常,所以要註意捕獲,避免程式退出
  3. JavaCV中,最常用的類來自org.bytedeco.opencv.opencv_core這個包,然而,在計算直方圖、反向投影、CamShift的時候,大部分參數又來自org.opencv.core這個包,因此從攝像頭取得的幀相關的數據對象,都要轉換成另一個包下麵的同名對象,才能順利的執行人臉跟蹤操作
  4. 人臉跟蹤的時候,如何判斷跟丟了?正常情況下,CamShift返回的是一個有效的矩形,人不再出現的幀,CamShift計算其反向投影的時候,返回的矩形的長和寬都小於等於零,但實際測試的時候,發現人臉消失後,CamShift還可能返回一個很小的矩形,這顯然是必須要丟棄的,因此,判斷是否跟丟的邏輯,我這裡就改成:長或者寬比上一次的變化率是否超過百分八十,實測效果尚可,您也可以自行調整這個參數
  5. 假設人臉檢測的結果是50*60的矩形,能將整個人臉包括在此矩形中,但CamShift計算得到的矩形就未必是50*60了,一般高度會更大,導致將人臉之下的脖子也包括進來,而且頭髮上面會包括進來,此刻,您可以按照自己的業務需求來調整這個矩形,我這裡是將位置向下移動(不把頭髮包括進來),再把寬度的值設置成高度,這樣看起來與人臉檢測的結果比較接近,調整前後的效果如下圖所示:
    在這裡插入圖片描述
  • 以上就是之前的開發過程中遇到的典型問題,可見如果沒有事先準備,怕是每個問題都能將愛學習的您折磨得痛苦不堪...

期待下一篇的實戰

  • 至此,圖文並茂的設計篇已全部完成,和愉快的編碼相比,這種設計和準備工作既枯燥且辛苦,但卻是一個功能健全的應用不可或缺的一部分,只希望本篇能為您提供足夠的理論知識信息,讓咱們在下一篇的編碼實戰中做到胸有成竹,下筆如有神助
  • 下一篇:《Java版人臉跟蹤三部曲之三:編碼實戰》,敬請期待~

歡迎關註博客園:程式員欣宸

學習路上,你不孤單,欣宸原創一路相伴...


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # 一、編譯和鏈接的過程 ## 1、GCC生成可執行文件的總體過程 在日常的開發過程中,IDE總是會幫我們將編譯和鏈接合併,一鍵式的執行,即使在liunx中,使用命令行來編譯一個源文件也只是簡單的一句"gcc hello.c"。我們並沒有過多的關註編譯和鏈接的運行機制和機理,我想從本質出發,深入瞭解 ...
  • 本文博主給大家講解一道網上非常經典的多線程面試題目。關於三個線程如何交替列印ABC迴圈100次的問題。 > 下文實現代碼都基於Java代碼在單個JVM內實現。 ## 問題描述 給定三個線程,分別命名為A、B、C,要求這三個線程按照順序交替列印ABC,每個字母列印100次,最終輸出結果為: ``` A ...
  • # 背景 業務開發需要判斷業務狀態是否在30、40、50、60的集合內,所以寫了以下代碼 ``` int[] inLiq = {30,40,50,60}; return Arrays.asList(inLiq).contains(o.getOrderStatus()); ``` 自我Review代碼 ...
  • # Java 對象創建流程、this 關鍵字 # 1. Java 對象記憶體創建流程 > ## 1. 先載入類信息(.class 的文件),只會載入一次 > > ## 2. 在堆空間里分配對象的記憶體空間 > > ## 3.1 進行預設的初始化即數據類型本身的預設值 > > ## 3.2 進行顯式的初始 ...
  • 這幾年搞了不少靜態站點,有的是Hexo的,有的是VuePress的。由於不同的主題對於NodeJS的版本要求不同,所以本機上不少NodeJS的版本。 關於如何管理多個NodeJS版本,很早之前就寫過用nvm來管理的相關文章,這裡就不贅述了,有需要的可以看這篇[Node.js環境搭建](https:/ ...
  • **在Python Web開發領域,Django框架的地位猶如璀璨的明星,其全面、高效和安全的特性使其在全球範圍內廣受歡迎。本文將全面解析Django框架的預設文件,並深入探討每個文件及其組成的意義和用途,透徹展示這個強大框架的文件結構和設計原理。** 首先,讓我們看一下創建一個新的Django項目 ...
  • 按照正常流程新建程式,畫面修改上傳,程式下載修改 導入JAVA包,在global.import下 IMPORT com IMPORT JAVA java.net.URL IMPORT JAVA org.apache.poi.ss.util.CellRangeAddress IMPORT JAVA o ...
  • 引言 在實際的應用場景中,可能經常會遇到,當請求一個介面調一個服務的時候,出現異常或網路出現故障的情況下就會失敗,而對於那些重要的服務當失敗後,可能我們就會進行重試,多調用幾次,如果還是失敗再另外進行單獨處理。接下來,就是要講解的重點內容,我們可以通過@Retryable註解,優雅的實現迴圈重試功能 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...