web-dev-qa-db-ja.com

類似画像を見つけるためのアルゴリズム

2つの画像が「類似」しているかどうかを判断し、色、明るさ、形状などの類似パターンを認識するアルゴリズムが必要です。人間の脳が画像を「分類」するために使用するパラメーターについてのポインターが必要になる場合があります。 ..

私はhausdorffベースのマッチングを見てきましたが、それは主に変換されたオブジェクトと形状のパターンをマッチングするためのようです。

76
kitsune

wavelet transform を使用して画像を署名に分解することにより、同様のことを行いました。

私のアプローチは、変換された各チャネルから最も重要なn係数を選択し、その位置を記録することでした。これは、abs(power)に従って(power、location)タプルのリストをソートすることで行われました。同様の画像は、同じ場所に重要な係数を持つという点で類似性を共有します。

画像をYUV形式に変換すると、形状(Yチャンネル)と色(UVチャンネル)の類似性を効果的に重み付けできます。

上記の私の実装は mactorii で見つけることができますが、残念ながら私は必要なほど作業していません:-)

私の友人が驚くほど良い結果で使用している別の方法は、単にあなたの署名である4x4ピクセルとストアに画像のサイズを変更することです。たとえば、対応するピクセルを使用して2つの画像間の マンハッタン距離 を計算することで、2つの画像がどれだけ似ているかをスコアリングできます。私は彼らがどのようにサイズ変更を実行したかの詳細を持っていないので、あなたは適切なものを見つけるためにそのタスクに利用可能な様々なアルゴリズムで遊ぶ必要があるかもしれません。

55
freespace

pHash 興味があるかもしれません。

知覚ハッシュn。音声、ビデオ、または画像ファイルの指紋で、その中に含まれる音声または視覚コンテンツに数学的に基づいています。出力の劇的な変化をもたらす入力の小さな変化の雪崩効果に依存する暗号ハッシュ関数とは異なり、入力が視覚的または聴覚的に類似している場合、知覚ハッシュは互いに「近い」です。

43
Alvis

[〜#〜] sift [〜#〜] を使用して、異なる画像内の同じオブジェクトを再検出しました。それは本当に強力ですが、かなり複雑で、やり過ぎかもしれません。画像が非常に似ていると思われる場合、2つの画像の違いに基づいたいくつかの単純なパラメーターは、かなりわかります。いくつかのポインター:

  • 画像を正規化する。つまり、両方の画像の平均輝度を計算し、比率に従って最高輝度を縮小することで、両方の画像の平均輝度を同じにする(最高レベルでのクリッピングを避けるため)色。
  • チャネルごとの正規化された画像の色差の合計。
  • 画像のエッジを見つけ、両方の画像のエッジピクセル間の距離を測定します。 (形状用)
  • 一連の離散領域で画像を分割し、各領域の平均色を比較します。
  • 1つ(または一連の)レベルで画像のしきい値を設定し、結果の白黒画像が異なるピクセル数をカウントします。
12
jilles de wit

知覚的イメージ差分 を使用できます

これは、知覚メトリックを使用して2つの画像を比較するコマンドラインユーティリティです。つまり、人間の視覚システムの計算モデルを使用して、2つの画像が視覚的に異なるかどうかを判断するため、ピクセルの小さな変化は無視されます。さらに、乱数生成の違い、OSまたはマシンアーキテクチャの違いによって引き起こされる誤検知の数を大幅に減らします。

5

私の研究室でもこの問題を解決する必要があり、Tensorflowを使用しました。以下は、画像の類似性を視覚化するための フルアプリ 実装です。

類似度計算のための画像のベクトル化のチュートリアルについては、 このページ をご覧ください。 Python(もう一度、完全なワークフローについては投稿を参照):

from __future__ import absolute_import, division, print_function

"""

This is a modification of the classify_images.py
script in Tensorflow. The original script produces
string labels for input images (e.g. you input a picture
of a cat and the script returns the string "cat"); this
modification reads in a directory of images and 
generates a vector representation of the image using
the penultimate layer of neural network weights.

Usage: python classify_images.py "../image_dir/*.jpg"

"""

# Copyright 2015 The TensorFlow Authors. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.Apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# ==============================================================================

"""Simple image classification with Inception.

Run image classification with Inception trained on ImageNet 2012 Challenge data
set.

This program creates a graph from a saved GraphDef protocol buffer,
and runs inference on an input JPEG image. It outputs human readable
strings of the top 5 predictions along with their probabilities.

Change the --image_file argument to any jpg image to compute a
classification of that image.

Please see the tutorial and website for a detailed description of how
to use this script to perform image recognition.

https://tensorflow.org/tutorials/image_recognition/
"""

import os.path
import re
import sys
import tarfile
import glob
import json
import psutil
from collections import defaultdict
import numpy as np
from six.moves import urllib
import tensorflow as tf

FLAGS = tf.app.flags.FLAGS

# classify_image_graph_def.pb:
#   Binary representation of the GraphDef protocol buffer.
# imagenet_synset_to_human_label_map.txt:
#   Map from synset ID to a human readable string.
# imagenet_2012_challenge_label_map_proto.pbtxt:
#   Text representation of a protocol buffer mapping a label to synset ID.
tf.app.flags.DEFINE_string(
    'model_dir', '/tmp/imagenet',
    """Path to classify_image_graph_def.pb, """
    """imagenet_synset_to_human_label_map.txt, and """
    """imagenet_2012_challenge_label_map_proto.pbtxt.""")
tf.app.flags.DEFINE_string('image_file', '',
                           """Absolute path to image file.""")
tf.app.flags.DEFINE_integer('num_top_predictions', 5,
                            """Display this many predictions.""")

# pylint: disable=line-too-long
DATA_URL = 'http://download.tensorflow.org/models/image/imagenet/inception-2015-12-05.tgz'
# pylint: enable=line-too-long


class NodeLookup(object):
  """Converts integer node ID's to human readable labels."""

  def __init__(self,
               label_lookup_path=None,
               uid_lookup_path=None):
    if not label_lookup_path:
      label_lookup_path = os.path.join(
          FLAGS.model_dir, 'imagenet_2012_challenge_label_map_proto.pbtxt')
    if not uid_lookup_path:
      uid_lookup_path = os.path.join(
          FLAGS.model_dir, 'imagenet_synset_to_human_label_map.txt')
    self.node_lookup = self.load(label_lookup_path, uid_lookup_path)

  def load(self, label_lookup_path, uid_lookup_path):
    """Loads a human readable English name for each softmax node.

    Args:
      label_lookup_path: string UID to integer node ID.
      uid_lookup_path: string UID to human-readable string.

    Returns:
      dict from integer node ID to human-readable string.
    """
    if not tf.gfile.Exists(uid_lookup_path):
      tf.logging.fatal('File does not exist %s', uid_lookup_path)
    if not tf.gfile.Exists(label_lookup_path):
      tf.logging.fatal('File does not exist %s', label_lookup_path)

    # Loads mapping from string UID to human-readable string
    proto_as_ascii_lines = tf.gfile.GFile(uid_lookup_path).readlines()
    uid_to_human = {}
    p = re.compile(r'[n\d]*[ \S,]*')
    for line in proto_as_ascii_lines:
      parsed_items = p.findall(line)
      uid = parsed_items[0]
      human_string = parsed_items[2]
      uid_to_human[uid] = human_string

    # Loads mapping from string UID to integer node ID.
    node_id_to_uid = {}
    proto_as_ascii = tf.gfile.GFile(label_lookup_path).readlines()
    for line in proto_as_ascii:
      if line.startswith('  target_class:'):
        target_class = int(line.split(': ')[1])
      if line.startswith('  target_class_string:'):
        target_class_string = line.split(': ')[1]
        node_id_to_uid[target_class] = target_class_string[1:-2]

    # Loads the final mapping of integer node ID to human-readable string
    node_id_to_name = {}
    for key, val in node_id_to_uid.items():
      if val not in uid_to_human:
        tf.logging.fatal('Failed to locate: %s', val)
      name = uid_to_human[val]
      node_id_to_name[key] = name

    return node_id_to_name

  def id_to_string(self, node_id):
    if node_id not in self.node_lookup:
      return ''
    return self.node_lookup[node_id]


def create_graph():
  """Creates a graph from saved GraphDef file and returns a saver."""
  # Creates graph from saved graph_def.pb.
  with tf.gfile.FastGFile(os.path.join(
      FLAGS.model_dir, 'classify_image_graph_def.pb'), 'rb') as f:
    graph_def = tf.GraphDef()
    graph_def.ParseFromString(f.read())
    _ = tf.import_graph_def(graph_def, name='')


def run_inference_on_images(image_list, output_dir):
  """Runs inference on an image list.

  Args:
    image_list: a list of images.
    output_dir: the directory in which image vectors will be saved

  Returns:
    image_to_labels: a dictionary with image file keys and predicted
      text label values
  """
  image_to_labels = defaultdict(list)

  create_graph()

  with tf.Session() as sess:
    # Some useful tensors:
    # 'softmax:0': A tensor containing the normalized prediction across
    #   1000 labels.
    # 'pool_3:0': A tensor containing the next-to-last layer containing 2048
    #   float description of the image.
    # 'DecodeJpeg/contents:0': A tensor containing a string providing JPEG
    #   encoding of the image.
    # Runs the softmax tensor by feeding the image_data as input to the graph.
    softmax_tensor = sess.graph.get_tensor_by_name('softmax:0')

    for image_index, image in enumerate(image_list):
      try:
        print("parsing", image_index, image, "\n")
        if not tf.gfile.Exists(image):
          tf.logging.fatal('File does not exist %s', image)

        with tf.gfile.FastGFile(image, 'rb') as f:
          image_data =  f.read()

          predictions = sess.run(softmax_tensor,
                          {'DecodeJpeg/contents:0': image_data})

          predictions = np.squeeze(predictions)

          ###
          # Get penultimate layer weights
          ###

          feature_tensor = sess.graph.get_tensor_by_name('pool_3:0')
          feature_set = sess.run(feature_tensor,
                          {'DecodeJpeg/contents:0': image_data})
          feature_vector = np.squeeze(feature_set)        
          outfile_name = os.path.basename(image) + ".npz"
          out_path = os.path.join(output_dir, outfile_name)
          np.savetxt(out_path, feature_vector, delimiter=',')

          # Creates node ID --> English string lookup.
          node_lookup = NodeLookup()

          top_k = predictions.argsort()[-FLAGS.num_top_predictions:][::-1]
          for node_id in top_k:
            human_string = node_lookup.id_to_string(node_id)
            score = predictions[node_id]
            print("results for", image)
            print('%s (score = %.5f)' % (human_string, score))
            print("\n")

            image_to_labels[image].append(
              {
                "labels": human_string,
                "score": str(score)
              }
            )

        # close the open file handlers
        proc = psutil.Process()
        open_files = proc.open_files()

        for open_file in open_files:
          file_handler = getattr(open_file, "fd")
          os.close(file_handler)
      except:
        print('could not process image index',image_index,'image', image)

  return image_to_labels


def maybe_download_and_extract():
  """Download and extract model tar file."""
  dest_directory = FLAGS.model_dir
  if not os.path.exists(dest_directory):
    os.makedirs(dest_directory)
  filename = DATA_URL.split('/')[-1]
  filepath = os.path.join(dest_directory, filename)
  if not os.path.exists(filepath):
    def _progress(count, block_size, total_size):
      sys.stdout.write('\r>> Downloading %s %.1f%%' % (
          filename, float(count * block_size) / float(total_size) * 100.0))
      sys.stdout.flush()
    filepath, _ = urllib.request.urlretrieve(DATA_URL, filepath, _progress)
    print()
    statinfo = os.stat(filepath)
    print('Succesfully downloaded', filename, statinfo.st_size, 'bytes.')
  tarfile.open(filepath, 'r:gz').extractall(dest_directory)


def main(_):
  maybe_download_and_extract()
  if len(sys.argv) < 2:
    print("please provide a glob path to one or more images, e.g.")
    print("python classify_image_modified.py '../cats/*.jpg'")
    sys.exit()

  else:
    output_dir = "image_vectors"
    if not os.path.exists(output_dir):
      os.makedirs(output_dir)

    images = glob.glob(sys.argv[1])
    image_to_labels = run_inference_on_images(images, output_dir)

    with open("image_to_labels.json", "w") as img_to_labels_out:
      json.dump(image_to_labels, img_to_labels_out)

    print("all done")
if __== '__main__':
  tf.app.run()
5
duhaime

難しい問題です!それは、あなたがどれだけ正確である必要があるか、そしてどのような種類の画像を使っているかによって異なります。ヒストグラムを使用して色を比較できますが、明らかに画像内のそれらの色の空間分布(つまり、形状)は考慮されません。エッジ検出とそれに続くある種のセグメンテーション(つまり、形状の選択)は、別の画像と照合するためのパターンを提供できます。画像をピクセル値のマトリックスと見なし、それらのマトリックスを比較することにより、クーレンスマトリックスを使用してテクスチャを比較できます。画像マッチングとマシンビジョンに関する優れた書籍がいくつかあります-Amazonで検索すると、いくつか見つかります。

お役に立てれば!

4
Ben

一部の画像認識ソフトウェアソリューションは、実際には純粋にアルゴリズムベースではありませんが、代わりにneural networkコンセプトを使用します。 http://en.wikipedia.org/wiki/Artificial_neural_network と、興味深いサンプルも含むNeuronDotNetを確認してください。 http://neurondotnet.freehostia.com/index.html =

3
petr k.

Kohonenニューラルネットワーク/自己組織化マップを使用した関連研究があります

アカデミックシステム(Google for PicSOM)またはアカデミックシステムの両方
http://www.generation5.org/content/2004/aiSomPic.asp 、(すべての作業環境に適さない可能性があります))プレゼンテーションが存在します。

3
EPa

大幅に縮小されたバージョン(例:6x6ピクセル)のピクセルカラー値の差の平方和の計算はうまく機能します。同一の画像では0、類似の画像では小さな数値、異なる画像では大きな数値が得られます。

YUVに侵入するという他の人たちの最初のアイデアは興味深そうに聞こえます-私のアイデアはうまく機能しますが、色盲の観察者の視点からでも、正しい結果が得られるようにイメージを「異なる」ものとして計算したいです。

3
chris

これは視覚の問題のように聞こえます。アダプティブブースティングおよびバーンズライン抽出アルゴリズムを検討することをお勧めします。これら2つの概念は、この問題へのアプローチに役立つはずです。基本を説明しているように、ビジョンアルゴリズムを初めて使用する場合は、エッジ検出をさらに簡単に開始できます。

分類のパラメーターに関して:

  • カラーパレットと場所(勾配計算、色のヒストグラム)
  • 含まれる形状(Ada。形状を検出するためのブースティング/トレーニング)
2
willasaywhat

必要な精度の結果に応じて、n x nピクセルブロックの画像を単純に分割して分析できます。最初のブロックで異なる結果が得られた場合、処理を停止することはできず、その結果、パフォーマンスが改善されます。

正方形を分析するために、たとえば、色の値の合計を取得できます。

2
JValente

議論の後半に参加して申し訳ありません。

ORB手法を使用して、2つの画像間で同様の特徴点を検出することもできます。次のリンクは、PythonでORBを直接実装しています。

http://scikit-image.org/docs/dev/auto_examples/plot_orb.html

OpenCVでさえORBを直接実装しています。詳細については、以下の調査記事をご覧ください。

https://www.researchgate.net/publication/292157133_Image_Matching_Using_SIFT_SURF_BRIEF_and_ORB_Performance_Comparison_for_Distorted_Images

1

この記事は、その仕組みを説明するのに非常に役立ちました。

http://www.hackerfactor.com/blog/index.php?/archives/432-Looks-Like-It.html

1
andi

2つの画像間で何らかのブロックマッチングモーション推定を実行し、残差とモーションベクトルコストの全体的な合計を測定することができます(ビデオエンコーダーの場合と同様)。これは動きを補償します。ボーナスポイントについては、アフィン変換モーション推定を実行します(ズームとストレッチなどの補正)。オーバーラップブロックまたはオプティカルフローを実行することもできます。

1
Dark Shikari

最初のパスとして、色ヒストグラムを使用してみてください。ただし、問題のドメインを絞り込む必要があります。一般的な画像マッチングは非常に難しい問題です。

1
Dima

これに関する他のスレッドにいくつかの良い答えがありますが、スペクトル分析を伴う何かがうまくいくのだろうか?つまり、画像を位相と振幅の情報に分解し、それらを比較します。これにより、トリミング、変換、強度の違いに関する問題の一部を回避できる場合があります。とにかく、これは興味深い問題のように思えるので、私は推測しています。 http://scholar.google.com を検索した場合、これに関するいくつかの論文を作成できると確信しています。

0
dbrien