Daiji Blog

[翻訳] Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

公開:
更新:

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos” の翻訳/解説を行いますまだ訳しきれてないですけどもう書くのめんどくさいので公開します

概要/はじめに

背景/従来手法

提案手法

手法

問題の設定

3枚のRGB画像3(I1,I2,I3)H×W×3カメラ固有行列K3×3を入力とする深度推定ネットワークθ:H×W×3エンコーダデコーダの畳込みニューラルネットワークCNN1つのRGB画像から密な深度画像Di=θ(Ii)を生成するエゴモーション推定ネットワークψE:2×H×W×362つのRGB画像対を入力としフレーム間の並進と回転パラメータE12=ψE(I1,I2)=(tx,ty,tz,rx,ry,rz)を生成する同様にE23=ψE(I2,I3)も生成する

微分可能な画像ワーピング演算子ϕ(Ii,Dj,Eij)I^ijが再構築されれたj番目の画像である場合対応する深度推定結果Dj=θ(Ij)とエゴモーション推定結果Eij=ψE(Ii,Ij)が与えられると任意の画像IiIjにワープできるϕは変換された画像のピクセル座標から読み取りI^ijxy=I^ix^y^を設定してワーピングするここで[x,y,1]=KEij(DjxyK1[x,y,1])は投影された座標である監視信号は次のフレームI^ijに投影されたシーンをRGB空間の実際の次のフレームIj画像と比較する測光損失photometric lossを使用して確立される再構築損失Lrec=min(I^12I2)を使用する

アルゴリズムのベースライン

最近の研究4によりアルゴリズムの強力なベースラインを確立する再構築損失は前後のフレームのいずれかから中央のフレームへのワープの最小再構築損失として計算される提案5された

Lrec=min(I^12I2,I^32I2),

により重大なオクルージョン/ディスオクルージョン効果によるペナルティを回避できる再構築損失に加えてベースラインはSSIM損失6深度平滑損失を使用し学習中に深さの正規化を適用するこれは先行研究7での成功を示している全体の損失は4つのスケールで適用される

L=α1i=03Lrec(i)+α2Lssim(i)+α312iLsm(i).

ここでαjはハイパーパラメータである

モーションモデル

個々の3Dオブジェクトのモーションの予測に特化したオブジェクトモーションモデルψMを紹介する8事前に求めたセグメンテーションマスクによって画像を補完するψM3D空間内のオブジェクトごとの変換ベクトルを予測することを学習するようにタスクが設定されるワープされた画像の計算は以前の研究7のようにエゴモーションに基づく単一の投影だけでなく適切に組み合わされる一連の投影でもある静的背景はψEに基づく単一のワープによって生成されるがセグメント化されたすべてのオブジェクトは最初にψE次にψMにしたがってワープされた外観によって追加されるこのアプローチはオブジェクトの動きが3Dで学習され推論で利用できるという点で2D画像空間の動きにオプティカルフロー9または3Dオプティカルフロー10を使用した先行研究と異なるこのアプローチはオブジェクトを3Dでモデル化するだけでなくその場でオブジェクトの動きを学習するこれはシーンおよび個々のオブジェクトごとに独立して深度をモデル化する原理的な方法である

個々の3Dオブジェクトのモーションの予測に特化したオブジェクトモーションモデル

インスタンス整列セグメンテーションマスクをシーケンスI1, I2, I3内の各潜在的なオブジェクトiごとに(Si,1,Si,2,Si,3)H×Wとして定義する静的シーンO0(S)=1iSiのマスクを定義し移動する可能性のあるオブジェクトに対応するすべての画像コンテンツを削除する一方j>0でのOj(S)=Sjオブジェクトのマスクのみを返す静的シーンのマスクはシーケンスをエゴモーションモデル関数にフィードする前にアダマール積要素ごとの乗算によってシーケンス内のすべての画像に適用されるオブジェクトの動きをモデル化するには最初にエゴモーションの推定を適用してワープされたシーケンスI^12, I2, I^32S^12, S2, S^32を取得する深度とエゴモーションの推定値が正しいと仮定すると画像シーケンス内の不整合は移動するオブジェクトによってのみ発生する移動する可能性のあるオブジェクトの概要は既成のアルゴリズム11によって提供される対象のデータセットのいずれでもトレーニングされていないオプティカルフロー10を使用する以前の作業と同様画像内のすべてのオブジェクトインスタンスについてi番目のオブジェクトのオブジェクトモーション推定値M(i)は次のように計算される

M12(i),M23(i)=ψM(I^12Oi(S^12),I2Oi(S2),I^32Oi(S^32)).

実際の3D動きベクトルはそれぞれの領域でのオブジェクトの動きの変換の前後の動きを追跡することによって取得されるこれらの動きの推定値に対応して予測された動きにしたがってオブジェクトを移動する逆ワーピング操作が実行される最終的なワープ結果は移動するオブジェクトI^(i)からの個々のワープとエゴモーションI^の組み合わせとなるすべてのワーピングI^12(F)

I^12(F)=I^12VGradient w.r.t.ψE,ϕ+i=1NI^12(i)Oi(S2)Gradient w.r.t.ψM,ϕ,

となりI^32(F)に相当する満たされていない領域が存在する可能性があるがこれらは最小損失計算によって暗黙的に処理されるこのアルゴリズムは推論で使用できるオブジェクトごとに個々の3Dモーションを自動的に学習する

オブジェクトサイズの制約

先行研究5 10ではほぼ同じ速度で前方を移動する車が無限の深さに投影されることが多いことであると指摘されたこれはオブジェクトが動かずネットワークがそれを無限に遠くにあると推定した場合再投影損失がほぼゼロになるからである先行研究ではこの重大な制限5 6 10が指摘しているがステレオ画像でデータセットを拡張する以外に解決策はないと考えられていたただしステレオは単眼に比べ一般的ではなく適用性が制限されるこの問題に対処する別の方法を提案するオブジェクトを非常に近くに配置し小さいと仮定してオブジェクトの動きを説明するこのアイデアはモデルにオブジェクトのスケールを学習させ3Dでオブジェクトをモデル化できるようにすることである車の場合Dapprox(p;h)fyphfyは焦点距離pは実次元での事前の高さhはピクセル単位のセグメンテーションの高さを使用してセグメンテーションマスクとカメラの固有値が与えられた場合におおよその深度推定を取得できる実際にはそのような制約を手作業で推定しないために追加の入力を必要とせずにネットワークにすべての制約を同時に学習させる各オブジェクトi+のスケールで損失項を定義するt(i):が任意のオブジェクトiのカテゴリIDを定義しpjが各カテゴリIDjの前の学習可能な高さであるとするDを深度マップ推定Sを対応するオブジェクトアウトラインマスクとする次に損失

Lsc=i=1NDOi(S)DDapprox(pt(i);h(Oi(S)))Oi(S)D,

セグメント化されたすべてのオブジェクトが無限の深さに縮退することを防ぎネットワークに妥当な深さだけでなく一致するオブジェクトの動きの推定値も生成される中間フレームの平均推定深度であるDでスケーリングして事前確率と深度予測範囲を共同で縮小することにより些細な損失削減の潜在的な問題を軽減するこれは3Dの完全な単眼トレーニングセットアップで一般的な変性症例に対処する方法であるこの制約はモデリング定式化の不可欠な部分であるためモーションモデルは最初からLscでトレーニングされるただしこの追加の損失はすでにトレーニングされたモデルに適用するときに誤った深度推定値を正常に修正できることを確認した移動するオブジェクトの深度を修正することで機能する

テスト時間の絞り込みモデル

単一フレームの深度推定器を持つことで幅広い適用性を持つ連続する予測は不整合または不連続であるため画像で連続的な深度推定を実行する場合にコストがかかるこれらは2つの主要な問題によって引き起こされる

  1. モデルに実スケールとの関連がないため隣接するフレーム間でスケーリングが一致しないこと
  2. 深度予測の時間的一貫性が低いこと

オンライン最適化を効果的に実行することでこれらを解決し推論を実行しながら学習を継続すること手法を提案するこれにより非常に限られた時間分解能でも定性的および定量的に深度予測の品質を大幅に向上できるよって通常は無視できる1フレームの遅延でメソッドをリアルタイムでオンラインで実行できるオンラインでの改善はモデルを動的に微調整するN=20に対して実行されるNオンラインチューニングの活用と過学習を防ぐこととの適切な妥協点を決定するオンライン改善アプローチはすべてのモデルに適用できる

実験結果

深度推定エゴモーション推定転移学習についての以下に示すデータセットを用いて評価実験を行う

KITTIでの結果

ベースラインおよび先行研究に比べ大幅に推定精度を改善することができた図と表は省略さらに単眼の推定にもかかわらずステレオによる推定に近い精度が得られた

Cityscapesでの結果

提案されたアプローチの絶対相対誤差が0.205から0.153に大幅に改善されていることからこの方法の利点を明確に示しているこれは最新の誤差0.233のコンテキストでとくに印象的であったまたモーションモデルとリファインメントモデルの両方によって個別にまたは共同で改善が達成されていることがわかる

結論と今後の課題

この論文では個々のオブジェクトの動きを3Dでモデル化することにより単眼の深度とエゴモーションの問題に対処するまた適当な動画で学習を適応させ新しいデータセットまたは環境に応用できるオンライン改良手法を提案したこのアルゴリズムは確立されたベンチマークで最高のパフォーマンスを実現し動的なシーンに対してより高品質の結果を生成を実現した将来的にはより多くの時間情報を組み込むためにより長いシーケンスにリファインメント方法を適用を考えている今後の作業では提案された深度とエゴモーションの推定方法によって可能になる完全な3Dシーンの再構築にもできると考える

文献

  1. Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
  2. struct2depth

脚注

  1. カメラ視点の移動量のこと

  2. Eigen, Puhrsch, and Fergus 2014; Laina et al. 2016; Wang, Fouhey, and Gupta 2015; Li, Klein, and Yao 2017

  3. 簡単のために3枚で説明する4枚以上でも可能である

  4. Zhou et al. 2017; Godard, Aodha, and Brostow 2018

  5. Godard, Aodha, and Brostow 2018 2 3

  6. Wang et al. 2004 2

  7. Zhou et al. 2017; Godard, Aodha, and Brostow 2017; Wang et al. 2018 2

  8. 図は論文から引用

  9. Yin. 2018

  10. Yang et al. 2018a 2 3 4

  11. He et al. 017