2つの文字列の違いを検出する

Question

私は2つの文字列を持っています

string a = "foo bar"; string b = "bar foo";

aからbへの変更を検出したい。 aからbに変更するには、どの文字を変更する必要がありますか？

各キャラクターに繰り返しが必要で、追加、削除、または同等のままかどうかを検出する必要があると思います。これが私の予想結果です

'f' Remove 'o' Remove 'o' Remove ' ' Remove 'b' Equal 'a' Equal 'r' Equal ' ' Add 'f' Add 'o' Add 'o' Add

結果のクラスと列挙：

public enum Operation { Add,Equal,Remove }; public class Difference { public Operation op { get; set; } public char c { get; set; } }

ここに私の解決策がありますが、「削除」の場合は、コードがどのように見えるかが明確ではありません

public static List<Difference> CalculateDifferences(string left, string right) { int count = 0; List<Difference> result = new List<Difference>(); foreach (char ch in left) { int index = right.IndexOf(ch, count); if (index == count) { count++; result.Add(new Difference() { c = ch, op = Operation.Equal }); } else if (index > count) { string add = right.Substring(count, index - count); result.AddRange(add.Select(x => new Difference() { c = x, op = Operation.Add })); count += add.Length; } else { //Remove? } } return result; }

削除された文字のコードはどのように見える必要がありますか？

更新-さらにいくつかの例を追加

例1：

string a = "foobar"; string b = "fooar";

期待される結果：

'f' Equal 'o' Equal 'o' Equal 'b' Remove 'a' Equal 'r' Equal

例2：

string a = "asdfghjk"; string b = "wsedrftr";

期待される結果：

'a' Remove 'w' Add 's' Equal 'e' Add 'd' Equal 'r' Add 'f' Equal 'g' Remove 'h' Remove 'j' Remove 'k' Remove 't' Add 'r' Add

更新：

Dmitryとingenの答えのの比較は次のとおりです。 https://dotnetfiddle.net/MJQDAO

Dmitry Bychenko · Accepted Answer

探しているのは（最小）編集距離/（最小）編集シーケンス。プロセスのtheoryを見つけることができます：

https://web.stanford.edu/class/cs124/lec/med.pdf

（最も簡単な）レーベンシュタイン距離/シーケンスアルゴリズムを実装しましょう（詳細については https://en.wikipedia.org/wiki/Levenshtein_distance を参照してください）。 helperクラスから始めましょう（実装を少し変更しました）：

 public enum EditOperationKind : byte { None, // Nothing to do Add, // Add new character Edit, // Edit character into character (including char into itself) Remove, // Delete existing character }; public struct EditOperation { public EditOperation(char valueFrom, char valueTo, EditOperationKind operation) { ValueFrom = valueFrom; ValueTo = valueTo; Operation = valueFrom == valueTo ? EditOperationKind.None : operation; } public char ValueFrom { get; } public char ValueTo {get ;} public EditOperationKind Operation { get; } public override string ToString() { switch (Operation) { case EditOperationKind.None: return $"'{ValueTo}' Equal"; case EditOperationKind.Add: return $"'{ValueTo}' Add"; case EditOperationKind.Remove: return $"'{ValueFrom}' Remove"; case EditOperationKind.Edit: return $"'{ValueFrom}' to '{ValueTo}' Edit"; default: return "???"; } } }

提供された例からわかるように、edit操作はありませんが、add + remove ;だからこそeditCost = 2 いつ insertCost = 1、int removeCost = 1（tieの場合：insert + remove vs. edit私たちはinsert + remove）。これで、Levensteinアルゴリズムを実装する準備ができました。

public static EditOperation[] EditSequence( string source, string target, int insertCost = 1, int removeCost = 1, int editCost = 2) { if (null == source) throw new ArgumentNullException("source"); else if (null == target) throw new ArgumentNullException("target"); // Forward: building score matrix // Best operation (among insert, update, delete) to perform EditOperationKind[][] M = Enumerable .Range(0, source.Length + 1) .Select(line => new EditOperationKind[target.Length + 1]) .ToArray(); // Minimum cost so far int[][] D = Enumerable .Range(0, source.Length + 1) .Select(line => new int[target.Length + 1]) .ToArray(); // Edge: all removes for (int i = 1; i <= source.Length; ++i) { M[i][0] = EditOperationKind.Remove; D[i][0] = removeCost * i; } // Edge: all inserts for (int i = 1; i <= target.Length; ++i) { M[0][i] = EditOperationKind.Add; D[0][i] = insertCost * i; } // Having fit N - 1, K - 1 characters let's fit N, K for (int i = 1; i <= source.Length; ++i) for (int j = 1; j <= target.Length; ++j) { // here we choose the operation with the least cost int insert = D[i][j - 1] + insertCost; int delete = D[i - 1][j] + removeCost; int edit = D[i - 1][j - 1] + (source[i - 1] == target[j - 1] ? 0 : editCost); int min = Math.Min(Math.Min(insert, delete), edit); if (min == insert) M[i][j] = EditOperationKind.Add; else if (min == delete) M[i][j] = EditOperationKind.Remove; else if (min == edit) M[i][j] = EditOperationKind.Edit; D[i][j] = min; } // Backward: knowing scores (D) and actions (M) let's building edit sequence List<EditOperation> result = new List<EditOperation>(source.Length + target.Length); for (int x = target.Length, y = source.Length; (x > 0) || (y > 0);) { EditOperationKind op = M[y][x]; if (op == EditOperationKind.Add) { x -= 1; result.Add(new EditOperation('\0', target[x], op)); } else if (op == EditOperationKind.Remove) { y -= 1; result.Add(new EditOperation(source[y], '\0', op)); } else if (op == EditOperationKind.Edit) { x -= 1; y -= 1; result.Add(new EditOperation(source[y], target[x], op)); } else // Start of the matching (EditOperationKind.None) break; } result.Reverse(); return result.ToArray(); }

デモ：

var sequence = EditSequence("asdfghjk", "wsedrftr"); Console.Write(string.Join(Environment.NewLine, sequence));

結果：

'a' Remove 'w' Add 's' Equal 'e' Add 'd' Equal 'r' Add 'f' Equal 'g' Remove 'h' Remove 'j' Remove 'k' Remove 't' Add 'r' Add

ingen · Answer

ここでは手足に出て、最も効率的ではないが、推論するのが簡単なアルゴリズムを提供します。

最初にいくつかの地面をカバーしましょう：

1）注文事項

string before = "bar foo" string after = "foo bar"

「bar」と「foo」は両方の文字列に含まれていますが、「bar」は後で削除して再度追加する必要があります。これは、after文字列であるため、関心のある文字の順序を示します。最初に "foo"が必要です。

2）注文超過

別の見方をすると、ある種のキャラクターは順番を変えられないかもしれません。

string before = "abracadabra" string after = "bar bar"

「bar b a r」の太字のみ、「a b r a cadab」で発言するra "。両方の文字列に2つのbがありますが、最初の1つだけcountsです。「barbar」の2番目のbに到達するまでに、「abracadabra "は、 'r'の最初の出現を探しているときに既に渡されています。

3）障壁

バリアは、順序と数を考慮して、両方の文字列に存在する文字です。これは、カウントを失うため、setが最も適切なデータ構造ではない可能性があることをすでに示唆しています。

入力用

string before = "pinata" string after = "accidental"

取得します（擬似コード）

var barriers = { 'a', 't', 'a' }

「ピンata

「a cciden ta l」

実行フローを見てみましょう。

'a'は最初のバリアであり、afterの最初の文字でもあるため、beforeの最初の 'a'の前にあるものはすべて削除できます。 "ピンa ta"-> "a ta"
2番目のバリアは 't'で、after文字列の次の位置にないため、間にすべてを挿入できます。「a t a」->「acciden t a」
3番目の障壁「a」はすでに次の位置にあるため、実際の作業を行うことなく次の障壁に移動できます。
障壁はありませんが、文字列の長さはafterの長さよりも小さいため、後処理が行われます。「accidenta」->「accidental」

注「i」と「n」は再生できません、もう一度、カウントオーバー注文してください。

実装

順序と数の問題を確立し、Queueが思い浮かびます。

static public List<Difference> CalculateDifferences(string before, string after) { List<Difference> result = new List<Difference>(); Queue<char> barriers = new Queue<char>(); #region Preprocessing int index = 0; for (int i = 0; i < after.Length; i++) { // Look for the first match starting at index int match = before.IndexOf(after[i], index); if (match != -1) { barriers.Enqueue(after[i]); index = match + 1; } } #endregion #region Queue Processing index = 0; while (barriers.Any()) { char barrier = barriers.Dequeue(); // Get the offset to the barrier in both strings, // ignoring the part that's already been handled int offsetBefore = before.IndexOf(barrier, index) - index; int offsetAfter = after.IndexOf(barrier, index) - index; // Remove prefix from 'before' string if (offsetBefore > 0) { RemoveChars(before.Substring(index, offsetBefore), result); before = before.Substring(offsetBefore); } // Insert prefix from 'after' string if (offsetAfter > 0) { string substring = after.Substring(index, offsetAfter); AddChars(substring, result); before = before.Insert(index, substring); index += substring.Length; } // Jump over the barrier KeepChar(barrier, result); index++; } #endregion #region Post Queue processing if (index < before.Length) { RemoveChars(before.Substring(index), result); } if (index < after.Length) { AddChars(after.Substring(index), result); } #endregion return result; } static private void KeepChar(char barrier, List<Difference> result) { result.Add(new Difference() { c = barrier, op = Operation.Equal }); } static private void AddChars(string substring, List<Difference> result) { result.AddRange(substring.Select(x => new Difference() { c = x, op = Operation.Add })); } static private void RemoveChars(string substring, List<Difference> result) { result.AddRange(substring.Select(x => new Difference() { c = x, op = Operation.Remove })); }

Nguyen Thanh Binh · Answer

上記の3つの例でテストしたところ、期待どおりの結果が適切かつ完全に返されます。

 int flag = 0; int flag_2 = 0; string a = "asdfghjk"; string b = "wsedrftr"; char[] array_a = a.ToCharArray(); char[] array_b = b.ToCharArray(); for (int i = 0,j = 0, n= 0; i < array_b.Count(); i++) { //Execute 1 time until reach first equal character if(i == 0 && a.Contains(array_b[0])) { while (array_a[n] != array_b[0]) { Console.WriteLine(String.Concat(array_a[n], " : Remove")); n++; } Console.WriteLine(String.Concat(array_a[n], " : Equal")); n++; } else if(i == 0 && !a.Contains(array_b[0])) { Console.WriteLine(String.Concat(array_a[n], " : Remove")); n++; Console.WriteLine(String.Concat(array_b[0], " : Add")); } else { if(n < array_a.Count()) { if (array_a[n] == array_b[i]) { Console.WriteLine(String.Concat(array_a[n], " : Equal")); n++; } else { flag = 0; for (int z = n; z < array_a.Count(); z++) { if (array_a[z] == array_b[i]) { flag = 1; break; } } if (flag == 0) { flag_2 = 0; for (int aa = i; aa < array_b.Count(); aa++) { for(int bb = n; bb < array_a.Count(); bb++) { if (array_b[aa] == array_a[bb]) { flag_2 = 1; break; } } } if(flag_2 == 1) { Console.WriteLine(String.Concat(array_b[i], " : Add")); } else { for (int z = n; z < array_a.Count(); z++) { Console.WriteLine(String.Concat(array_a[z], " : Remove")); n++; } Console.WriteLine(String.Concat(array_b[i], " : Add")); } } else { Console.WriteLine(String.Concat(array_a[n], " : Remove")); i--; n++; } } } else { Console.WriteLine(String.Concat(array_b[i], " : Add")); } } }//end for MessageBox.Show("Done"); //OUTPUT CONSOLE: /* a : Remove w : Add s : Equal e : Add d : Equal r : Add f : Equal g : Remove h : Remove j : Remove k : Remove t : Add r : Add */

Martin Verjans · Answer

完全なコードとコメント付きの別のソリューションがあります。ただし、最初の元の例の結果は逆になります。

class Program { enum CharState { Add, Equal, Remove } struct CharResult { public char c; public CharState state; } static void Main(string[] args) { string a = "asdfghjk"; string b = "wsedrftr"; while (true) { Console.WriteLine("Enter string a (enter to quit) :"); a = Console.ReadLine(); if (a == string.Empty) break; Console.WriteLine("Enter string b :"); b = Console.ReadLine(); List<CharResult> result = calculate(a, b); DisplayResults(result); } Console.WriteLine("Press a key to exit"); Console.ReadLine(); } static List<CharResult> calculate(string a, string b) { List<CharResult> res = new List<CharResult>(); int i = 0, j = 0; char[] array_a = a.ToCharArray(); char[] array_b = b.ToCharArray(); while (i < array_a.Length && j < array_b.Length) { //For the current char in a, we check for the equal in b int index = b.IndexOf(array_a[i], j); if (index < 0) //not found, this char should be removed { res.Add(new CharResult() { c = array_a[i], state = CharState.Remove }); i++; } else { //we add all the chars between B's current index and the index while (j < index) { res.Add(new CharResult() { c = array_b[j], state = CharState.Add }); j++; } //then we say the current is the same res.Add(new CharResult() { c = array_a[i], state = CharState.Equal }); i++; j++; } } while (i < array_a.Length) { //b is now empty, we remove the remains res.Add(new CharResult() { c = array_a[i], state = CharState.Remove }); i++; } while (j < array_b.Length) { //a has been treated, we add the remains res.Add(new CharResult() { c = array_b[j], state = CharState.Add }); j++; } return res; } static void DisplayResults(List<CharResult> results) { foreach (CharResult r in results) { Console.WriteLine($"'{r.c}' - {r.state}"); } } }

RezaNoei · Answer

2つの文字列を正確に比較したい場合は、Levenshtein Distanceを読んで理解する必要があります。このアルゴリズムを使用すると、2つの文字列間の類似率を正確に計算できます。また、アルゴリズムをバックトラックして、2番目の文字列の変化の連鎖を取得できます。このアルゴリズムは、自然言語処理にとっても重要なメトリックです。

他にもいくつかの利点があり、学習する時間が必要です。

このリンクには、レーベンシュタイン距離のC＃バージョンがあります。

https://www.dotnetperls.com/levenshtein

他にもいくつかの利点があり、学習する時間が必要です。

このリンクには、レーベンシュタイン距離のC＃バージョンがあります。

https://www.dotnetperls.com/levenshtein