web-dev-qa-db-ja.com

Pythonを使用して2つのExcelファイルを比較

次の2つのxlsxファイルがあります。

value1   value2   value3
0.456   3.456    0.4325436
6.24654 0.235435 6.376546
4.26545 4.264543 7.2564523

そして

value1   value2  value3
0.456   3.456    0.4325436
6.24654 0.23546  6.376546
4.26545 4.264543 7.2564523

すべてのセルを比較する必要があり、file1 !=のセルがfile2printのセルである場合。

import xlrd
rb = xlrd.open_workbook('file1.xlsx')
rb1 = xlrd.open_workbook('file2.xlsx')
sheet = rb.sheet_by_index(0)
for rownum in range(sheet.nrows):
    row = sheet.row_values(rownum)
    for c_el in row:
        print c_el

file1file2の比較セルを追加するにはどうすればよいですか?

7
user6241246

次のアプローチで開始できます。

_from itertools import izip_longest
import xlrd

rb1 = xlrd.open_workbook('file1.xlsx')
rb2 = xlrd.open_workbook('file2.xlsx')

sheet1 = rb1.sheet_by_index(0)
sheet2 = rb2.sheet_by_index(0)

for rownum in range(max(sheet1.nrows, sheet2.nrows)):
    if rownum < sheet1.nrows:
        row_rb1 = sheet1.row_values(rownum)
        row_rb2 = sheet2.row_values(rownum)

        for colnum, (c1, c2) in enumerate(izip_longest(row_rb1, row_rb2)):
            if c1 != c2:
                print "Row {} Col {} - {} != {}".format(rownum+1, colnum+1, c1, c2)
    else:
        print "Row {} missing".format(rownum+1)
_

これにより、2つのファイル間で異なるセルが表示されます。指定された2つのファイルについて、これは表示されます:

_Row 3 Col 2 - 0.235435 != 0.23546
_

セル名を好む場合は、 xlrd.formular.colname() を使用します。

_print "Cell {}{}  {} != {}".format(rownum+1, xlrd.formula.colname(colnum), c1, c2)
_

あなたに与える:

_Cell 3B  0.235435 != 0.23546
_
6
Martin Evans

pandas を使用すると、次のように簡単に実行できます。

import pandas as pd

df1 = pd.read_Excel('Excel1.xlsx')
df2 = pd.read_Excel('Excel2.xlsx')

difference = df1[df1!=df2]
print difference

結果は次のようになります。

enter image description here

18
Abbas

同様のことをするためにコードを使用します。少し一般化された作品です。 入力Excelシートと予想される出力データフレーム画像

import pandas as pd
import numpy as np
from xlsxwriter.utility import xl_rowcol_to_cell

template = pd.read_Excel("template.xlsx",na_values=np.nan,header=None)
testSheet = pd.read_Excel("test.xlsx",na_values=np.nan,header=None)

rt,ct = template.shape
rtest,ctest = testSheet.shape

df = pd.DataFrame(columns=['Cell_Location','BaseTemplate_Value','CurrentFile_Value'])

for rowNo in range(max(rt,rtest)):
  for colNo in range(max(ct,ctest)):
    # Fetching the template value at a cell
    try:
        template_val = template.iloc[rowNo,colNo]
    except:
        template_val = np.nan

    # Fetching the testsheet value at a cell
    try:
        testSheet_val = testSheet.iloc[rowNo,colNo]
    except:
        testSheet_val = np.nan

    # Comparing the values
    if (str(template_val)!=str(testSheet_val)):
        cell = xl_rowcol_to_cell(rowNo, colNo)
        dfTemp = pd.DataFrame([[cell,template_val,testSheet_val]],
                              columns=['Cell_Location','BaseTemplate_Value','CurrentFile_Value'])
        df = df.append(dfTemp)

dfは必須のデータフレームです

2
sharinganSawant