web-dev-qa-db-ja.com

Fast R-CNNのROIレイヤーの目的は何ですか?

this オブジェクト検出に関するチュートリアルでは、高速R-CNNについて説明しています。 ROI(関心領域)レイヤーも記載されています。

領域の提案が最終的な畳み込み層の活性化関数に従って(各セルで)サイズ変更されると、数学的に何が起きているのでしょうか?

21

関心のある地域(RoI)プーリング:

これは、不均一なサイズの入力(ここではconvnet機能マップ)でmax poolingを実行し、固定サイズの小さな機能マップ(7x7など)を生成するプーリングレイヤーの一種です。この固定サイズの選択は、ネットワークハイパーパラメーターであり、事前定義されています。

このようなプーリングを行う主な目的は、トレーニングとテストの時間を短縮し、システム全体をエンドツーエンドで(共同で)トレーニングすることです。

このプーリングレイヤーを使用しているため、元の(バニラ?)R-CNNアーキテクチャと比較して、トレーニングとテスト時間が高速であるため、名前Fast R-CNN。

簡単な例( deepsense.ioによって説明される関心領域プーリング から):

Visualization of RoI Pooling

20
kmario23

ROI(関心領域)レイヤーは Fast R-CNN で導入され、 Spatial Pyramid Poolingで導入される空間ピラミッドプーリングレイヤーの特殊なケースです視覚認識のためのディープコンボリューショナルネットワーク 。 ROIレイヤーの主な機能は、完全に接続されたレイヤーのサイズの制約のために、任意のサイズの入力を固定長の出力に変更することです。

ROIレイヤーの仕組みを以下に示します。

enter image description here

この画像では、任意のサイズの入力画像が3つの異なるウィンドウを持つこのレイヤーに入力されます。4x4(青)、2x2(緑)、1x1(灰色)で、固定サイズの出力を16 x F、4 x F、それぞれ1 x F、ここでFはフィルターの数です。次に、これらの出力は、完全に接続されたレイヤーに供給されるベクトルに連結されます。

13
Nghia Tran