Skip to content

Latest commit

 

History

History
79 lines (70 loc) · 3.6 KB

001.md

File metadata and controls

79 lines (70 loc) · 3.6 KB

2024-08-01

知らない概念がたくさん出てきて、MethodとExperimentの理解が苦しい。 参考文献等を読んでからもう一度読みたい。

TAMIC

Title MocapNET: Ensemble of SNN Encoders for 3D Human Pose Estimation in RGB Images
Author Ammar Qammaz, Antonis A. Argyros (CS Department University of Crete, Greece)
Motivation 深層学習、CNNのおかげでhuman body pose estimation/recoveryが進展したが、以前としてモーションキャプチャシステムは高価な複数のカメラのセットアップ、重いスーツに依存
Method 関節回転の抽出を、大規模な計算の最後の結果として得る定式化の代わりに、フィードフォワードネットワークを学習させることで達成する. 入力と出力空間を分解し、タスクを単純化した。シンプルで計算の速いFNNが適用できるようになった。 2次元関節の入力に対して、出力角度を計算する箇所に Normalized Signed Distance Matrices (NSDMs)を導入した。 並進普遍性に加え、結合順序を保持しスケールに強いため学習が単純化される(?)
Insight
Contribution Summary

KURR

keyword Human Pose Estimation/Recovery(HPR),
Unknown 精度改善の余地あり、モーションキャプチャのデータを使用したリッチなデータセットを使うべき、トレーニングデータに手を加える場合も精査すべき、入力ポーズ空間を狭めるためにクラスをもっと用意すべき(?)
Reflection
Reference Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
OpenPoseの論文は2回提出されているらしい。これは1回目の方?
  • input equivalence problem

    • 入力の等価性に関する問題。
  • Translation Invarianceとtranslation equivariance

    • いずれもCNNに関係する
    • Translation Invariance: 画像の位置が変わっても同じ特徴を抽出できる
    • Translation Equivariance: 入力に特定の操作(回転、並行移動、スケーリング)を行うと、その操作が出力にも反映される性質
    • CNNs and Equivariance
  • OpenPoseを活用して2次元RGBから3次元姿勢を復元(BVH形式)

RGB -> 2次元姿勢推定はたくさん論文があるっぽい。 RGB -> 3次元姿勢推定は、直接3次元姿勢をすいていするものと、2段階で推定するものに分けられる。 1ステージの手法は精度がデータセットのみに依存するという利点があるが、一般に大規模でバイアスのないデータセットは少ない

Related worksが多すぎて、どれをメモすれば良いのか決めかねる。また、知識が不足しているのであまりしっくりこない。一旦この論文を十分に理解してから、Related worksにも眼を通す。