Fast R-CNNのROIレイヤーの目的は何ですか？

Question

this オブジェクト検出に関するチュートリアルでは、高速R-CNNについて説明しています。 ROI（関心領域）レイヤーも記載されています。

領域の提案が最終的な畳み込み層の活性化関数に従って（各セルで）サイズ変更されると、数学的に何が起きているのでしょうか？

kmario23 · Accepted Answer

関心のある地域（RoI）プーリング：

これは、不均一なサイズの入力（ここではconvnet機能マップ）でmax poolingを実行し、固定サイズの小さな機能マップ（7x7など）を生成するプーリングレイヤーの一種です。この固定サイズの選択は、ネットワークハイパーパラメーターであり、事前定義されています。

このようなプーリングを行う主な目的は、トレーニングとテストの時間を短縮し、システム全体をエンドツーエンドで（共同で）トレーニングすることです。

このプーリングレイヤーを使用しているため、元の（バニラ？）R-CNNアーキテクチャと比較して、トレーニングとテスト時間が高速であるため、名前Fast R-CNN。

簡単な例（ deepsense.ioによって説明される関心領域プーリングから）：

Nghia Tran · Answer

ROI（関心領域）レイヤーは Fast R-CNN で導入され、 Spatial Pyramid Poolingで導入される空間ピラミッドプーリングレイヤーの特殊なケースです視覚認識のためのディープコンボリューショナルネットワーク。 ROIレイヤーの主な機能は、完全に接続されたレイヤーのサイズの制約のために、任意のサイズの入力を固定長の出力に変更することです。

ROIレイヤーの仕組みを以下に示します。

この画像では、任意のサイズの入力画像が3つの異なるウィンドウを持つこのレイヤーに入力されます。4x4（青）、2x2（緑）、1x1（灰色）で、固定サイズの出力を16 x F、4 x F、それぞれ1 x F、ここでFはフィルターの数です。次に、これらの出力は、完全に接続されたレイヤーに供給されるベクトルに連結されます。