2024-08-01
知らない概念がたくさん出てきて、MethodとExperimentの理解が苦しい。 参考文献等を読んでからもう一度読みたい。
TAMIC
Title | MocapNET: Ensemble of SNN Encoders for 3D Human Pose Estimation in RGB Images |
Author | Ammar Qammaz, Antonis A. Argyros (CS Department University of Crete, Greece) |
Motivation | 深層学習、CNNのおかげでhuman body pose estimation/recoveryが進展したが、以前としてモーションキャプチャシステムは高価な複数のカメラのセットアップ、重いスーツに依存 |
Method | 関節回転の抽出を、大規模な計算の最後の結果として得る定式化の代わりに、フィードフォワードネットワークを学習させることで達成する. 入力と出力空間を分解し、タスクを単純化した。シンプルで計算の速いFNNが適用できるようになった。 2次元関節の入力に対して、出力角度を計算する箇所に Normalized Signed Distance Matrices (NSDMs)を導入した。 並進普遍性に加え、結合順序を保持しスケールに強いため学習が単純化される(?) |
Insight | |
Contribution Summary |
KURR
keyword | Human Pose Estimation/Recovery(HPR), |
Unknown | 精度改善の余地あり、モーションキャプチャのデータを使用したリッチなデータセットを使うべき、トレーニングデータに手を加える場合も精査すべき、入力ポーズ空間を狭めるためにクラスをもっと用意すべき(?) |
Reflection | |
Reference |
Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields OpenPoseの論文は2回提出されているらしい。これは1回目の方? |
-
input equivalence problem
- 入力の等価性に関する問題。
-
Translation Invarianceとtranslation equivariance
- いずれもCNNに関係する
- Translation Invariance: 画像の位置が変わっても同じ特徴を抽出できる
- Translation Equivariance: 入力に特定の操作(回転、並行移動、スケーリング)を行うと、その操作が出力にも反映される性質
- CNNs and Equivariance
-
OpenPoseを活用して2次元RGBから3次元姿勢を復元(BVH形式)
RGB -> 2次元姿勢推定はたくさん論文があるっぽい。 RGB -> 3次元姿勢推定は、直接3次元姿勢をすいていするものと、2段階で推定するものに分けられる。 1ステージの手法は精度がデータセットのみに依存するという利点があるが、一般に大規模でバイアスのないデータセットは少ない
Related worksが多すぎて、どれをメモすれば良いのか決めかねる。また、知識が不足しているのであまりしっくりこない。一旦この論文を十分に理解してから、Related worksにも眼を通す。