web-dev-qa-db-ja.com

回転不変ニューラルネットワークが人気のあるコンテストの勝者に使用されないのはなぜですか?

既知のように、最新の最も人気のあるCNN(畳み込みニューラルネットワーク):VGG/ResNet(FasterRCNN)、SSD、Yolo、Yolo v2、DenseBox、DetectNet-回転不変ではありません: Detect CNN(畳み込みニューラルネットワーク)回転不変?

また、回転不変オブジェクト検出を備えたいくつかのニューラルネットワークがあることも知られています。

  1. 回転不変ネペルセプトロン2006( [〜#〜] pdf [〜#〜] ): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron

  2. テクスチャ分類2016用の回転不変畳み込みフィルターの学習( [〜#〜] pdf [〜#〜] ): https://arxiv.org/abs/1604.0672

  3. RIFD-CNN:物体検出2016用の回転不変およびフィッシャー識別畳み込みニューラルネットワーク( [〜#〜] pdf [〜#〜] ): http://www.cv- Foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html

  4. 畳み込みニューラルネットワーク2014のエンコードされた不変性( [〜#〜] pdf [〜#〜]

  5. 銀河形態予測のための回転不変畳み込みニューラルネットワーク( [〜#〜] pdf [〜#〜] ): https://arxiv.org/abs/1503.07077

  6. VHR光学リモートセンシング画像2016における物体検出のための回転不変畳み込みニューラルネットワークの学習: http://ieeexplore.ieee.org/document/7560644/

IMAGE-NET、MSCOCO、Pascal VOCなどの画像検出コンペティションでは、使用されているネットワークアンサンブル(同時にいくつかのニューラルネットワーク)が使用されています。または、ResNetなどの単一ネット内のネットワークアンサンブル( 残余ネットワークは比較的浅いネットワークのアンサンブルのように動作します

しかし、MSRAのような勝者にはローテーション不変のネットワークアンサンブルが使用されていますか?アンサンブルで追加の回転不変ネットワークが航空機オブジェクトなどの特定のオブジェクトを検出する精度を追加しないのはなぜですか?どの画像が異なる回転角度で行われますか?

かもね:

  • 地上から撮影された航空機オブジェクト enter image description here

  • または空から撮影された地上の物体 enter image description here

なぜ回転不変ニューラルネットワークが一般的なオブジェクト検出競争の勝者に使用されないのですか?

26
Alex

主にアプローチを古典的な機能選択-浅い学習アルゴリズムから機能選択なし-深層学習アルゴリズムに変更することによって行われた画像認識の最近の進歩は、引き起こされただけではありません畳み込みニューラルネットワークの数学的特性による。はい-もちろん、より少ない数のパラメーターを使用して同じ情報をキャプチャする機能は、部分的にはshift invariance propertyによって引き起こされましたが、最近の research はこれがキーではないことを示しています彼らの成功を理解することで。

私の意見では、この成功の背後にある主な理由は、数学的に正確アルゴリズムよりも高速学習アルゴリズムの開発であり、それが別の開発にあまり注意が払われない理由ですプロパティ不変式ニューラルネット。

もちろん、回転不変性はまったくスキップされません。これは、同じラベルを使用して、わずかに変更された(たとえば、回転または再スケーリングされた)画像をデータセットに配置するデータ拡張によって部分的に行われます。これで読むことができるように 幻想的な本 これらの2つのアプローチ(より多くの構造 vs より少ない構造+データ増大)はほぼ同等です。 (第5.5.3章、タイトル:不変性)

7
Marcin Możejko

また、コミュニティや学者が@Alexとしての配給不変CNNにあまり注意を払わなかった理由も疑問に思っています。

私の意見では、考えられる原因の1つは、特に人気のある競技会では、多くのシナリオでこのプロパティが必要ないことです。ロブが言及したように、一部の自然な写真はすでに統一された水平(または垂直)方法で撮影されています。たとえば、顔検出では、多くの作品が画像を調整して、CNNモデルに供給する前に人々が地球上に立っていることを確認します。正直に言うと、これはこの特定のタスクにとって最も安価で効率的な方法です。

ただし、実際にはいくつかのシナリオが存在し、回転不変プロパティが必要です。だから、私は別の推測に来ます:この問題はそれらの専門家(または研究者)の見方から難しくありません。少なくとも、データ拡張を使用して、回転不変式を取得できます。

最後に、論文に関する要約をありがとう。私はもう1つの論文を追加しました Group Equivariant Convolutional Networks_icml2016_GCNN とその githubでの実装 他の人による。

3
Tan Cniao

オブジェクト検出は、Pascal-VOCやMS-COCOのような世界的に有名なオブジェクト検出ベンチマークの検出アルゴリズムの成功によって主に駆動されます。これは、ほとんどのオブジェクトが垂直(鉢植え、人間、馬など)であるオブジェクト中心のデータセットです。多くの場合、左右反転によるデータ増強で十分です(逆さまの反転のような回転画像によるデータ増強は、検出性能を損なう可能性さえあります)。
毎年、コミュニティ全体が勝利ソリューションの基本アルゴリズム構造を採用し、それに基づいて構築しています(要点を証明するために少し誇張していますが、それほどではありません)。

興味深いことに、空中画像での指向テキスト検出や指向車両検出など、あまり広く知られていない他のトピックには、回転不変機能と回転等価変検出パイプラインの両方が必要です(言及したChengの両方の記事のように)。

この領域で文献とコードを検索する場合は、これらの2つのドメインに飛び込む必要があります。 [〜#〜] dota [〜#〜] 空中画像のチャレンジまたは ICDARチャレンジ 指向テキスト検出のようないくつかのポインターを既に提供できます。

@Marcin Mozejkoが言ったように、CNNは本質的に翻訳不変であり、回転不変ではありません。 someof が有望に見えても、それを扱っているいくつかの記事がまだ標準になっていない完全な回転不変性を組み込む方法は未解決の問題です。私の個人的な検出のお気に入りは、最近提案された Ma のFaster R-CNNの修正です。

人々がMS-COCOとVOCにうんざりしたら、この研究の方向性がますます調査されることを願っています。

TF検出APIからNASNetを使用したR-CNNの高速化 のようなMS-COCOでトレーニングされた最新の検出器を使用して、テスト画像を回転させて実行する方法を確認してください私の意見では、回転不変にはほど遠いでしょう。

3
jean