Java C ++のstd :: vectorよりも配列の方が8倍高速です。何を間違えましたか？

Question

私は次のJavaサイズを変更しないいくつかの大きな配列を含むコードを持っています。それは私のコンピューターで1100ミリ秒で実行されます。

同じコードをC++で実装し、std::vector。

まったく同じコードを実行するC++実装の時間は、コンピューターで8800ミリ秒です。これをゆっくり実行するために、私は何を間違えましたか？

基本的に、コードは次のことを行います。

for (int i = 0; i < numberOfCells; ++i) { h[i] = h[i] + 1; floodedCells[i] = !floodedCells[i]; floodedCellsTimeInterval[i] = !floodedCellsTimeInterval[i]; qInflow[i] = qInflow[i] + 1; }

サイズが約20000のさまざまな配列を反復処理します。

両方の実装は、次のリンクにあります。

Java： https://ideone.com/R8KqjT
C++： https://ideone.com/Lu7RpE

（ideoneでは、時間制限のため、ループを2000回ではなく400回しか実行できませんでした。しかし、ここでも3回の違いがあります）

Yakk - Adam Nevraumont · Accepted Answer

以下は、ノードごとのデータが構造に収集され、その構造の単一ベクトルが使用されたC++バージョンです。

#include <vector> #include <cmath> #include <iostream> class FloodIsolation { public: FloodIsolation() : numberOfCells(20000), data(numberOfCells) { } ~FloodIsolation(){ } void isUpdateNeeded() { for (int i = 0; i < numberOfCells; ++i) { data[i].h = data[i].h + 1; data[i].floodedCells = !data[i].floodedCells; data[i].floodedCellsTimeInterval = !data[i].floodedCellsTimeInterval; data[i].qInflow = data[i].qInflow + 1; data[i].qStartTime = data[i].qStartTime + 1; data[i].qEndTime = data[i].qEndTime + 1; data[i].lowerFloorCells = data[i].lowerFloorCells + 1; data[i].cellLocationX = data[i].cellLocationX + 1; data[i].cellLocationY = data[i].cellLocationY + 1; data[i].cellLocationZ = data[i].cellLocationZ + 1; data[i].levelOfCell = data[i].levelOfCell + 1; data[i].valueOfCellIds = data[i].valueOfCellIds + 1; data[i].h0 = data[i].h0 + 1; data[i].vU = data[i].vU + 1; data[i].vV = data[i].vV + 1; data[i].vUh = data[i].vUh + 1; data[i].vVh = data[i].vVh + 1; data[i].vUh0 = data[i].vUh0 + 1; data[i].vVh0 = data[i].vVh0 + 1; data[i].ghh = data[i].ghh + 1; data[i].sfx = data[i].sfx + 1; data[i].sfy = data[i].sfy + 1; data[i].qIn = data[i].qIn + 1; for(int j = 0; j < nEdges; ++j) { data[i].flagInterface[j] = !data[i].flagInterface[j]; data[i].typeInterface[j] = data[i].typeInterface[j] + 1; data[i].neighborIds[j] = data[i].neighborIds[j] + 1; } } } private: const int numberOfCells; static const int nEdges = 6; struct data_t { bool floodedCells = 0; bool floodedCellsTimeInterval = 0; double valueOfCellIds = 0; double h = 0; double h0 = 0; double vU = 0; double vV = 0; double vUh = 0; double vVh = 0; double vUh0 = 0; double vVh0 = 0; double ghh = 0; double sfx = 0; double sfy = 0; double qInflow = 0; double qStartTime = 0; double qEndTime = 0; double qIn = 0; double nx = 0; double ny = 0; double floorLevels = 0; int lowerFloorCells = 0; bool floorCompleteleyFilled = 0; double cellLocationX = 0; double cellLocationY = 0; double cellLocationZ = 0; int levelOfCell = 0; bool flagInterface[nEdges] = {}; int typeInterface[nEdges] = {}; int neighborIds[nEdges] = {}; }; std::vector<data_t> data; }; int main() { std::ios_base::sync_with_stdio(false); FloodIsolation isolation; clock_t start = clock(); for (int i = 0; i < 400; ++i) { if(i % 100 == 0) { std::cout << i << "
"; } isolation.isUpdateNeeded(); } clock_t stop = clock(); std::cout << "Time: " << difftime(stop, start) / 1000 << "
"; }

実例

時間はJavaバージョンの速度の2倍になりました。（846対1631）。

奇妙なことに、JITはキャッシュがすべての場所でデータにアクセスすることを認識しており、コードを論理的に類似しているがより効率的な順序に変換しています。

printf/scanfとC++ std::coutおよびstd::cinを混在させる場合にのみ必要なため、stdio同期もオフにしました。たまたま、いくつかの値を印刷するだけですが、印刷に関するC++のデフォルトの動作は過度に偏執的で非効率的です。

nEdgesが実際の定数値でない場合、3つの「配列」値をstructから取り除く必要があります。これにより、パフォーマンスが大幅に低下することはありません。

サイズを小さくすることでstructの値を並べ替えることにより、メモリフットプリントを削減することで、別のパフォーマンスの向上が得られる場合があります（重要でない場合もアクセスを並べ替えます）。しかし、私は確信がありません。

経験則では、単一のキャッシュミスは命令よりも100倍高価です。キャッシュの一貫性を保つようにデータを整理することには、多くの価値があります。

データをstructに再配置することが不可能な場合は、繰り返しを変更して各コンテナーを順番に変更できます。

余談ですが、JavaとC++のバージョンには微妙な違いがありました。私が見つけたのは、Javaバージョンには3つの変数があり、「for each Edge」ループ、C++ループには2しかありませんでしたが、私はJavaに合わせて作成しました。他にあるかどうかはわかりません。

Captain Giraffe · Answer

はい、C++バージョンのキャッシュは打撃を受けます。 JITには、これを処理するための設備が整っているようです。

IsUpdateNeeded（）の外側のforを短いスニペットに変更した場合。違いはなくなります。

以下のサンプルは、4倍の高速化を実現します。

void isUpdateNeeded() { for (int i = 0; i < numberOfCells; ++i) { h[i] = h[i] + 1; floodedCells[i] = !floodedCells[i]; floodedCellsTimeInterval[i] = !floodedCellsTimeInterval[i]; qInflow[i] = qInflow[i] + 1; qStartTime[i] = qStartTime[i] + 1; qEndTime[i] = qEndTime[i] + 1; } for (int i = 0; i < numberOfCells; ++i) { lowerFloorCells[i] = lowerFloorCells[i] + 1; cellLocationX[i] = cellLocationX[i] + 1; cellLocationY[i] = cellLocationY[i] + 1; cellLocationZ[i] = cellLocationZ[i] + 1; levelOfCell[i] = levelOfCell[i] + 1; valueOfCellIds[i] = valueOfCellIds[i] + 1; h0[i] = h0[i] + 1; vU[i] = vU[i] + 1; vV[i] = vV[i] + 1; vUh[i] = vUh[i] + 1; vVh[i] = vVh[i] + 1; } for (int i = 0; i < numberOfCells; ++i) { vUh0[i] = vUh0[i] + 1; vVh0[i] = vVh0[i] + 1; ghh[i] = ghh[i] + 1; sfx[i] = sfx[i] + 1; sfy[i] = sfy[i] + 1; qIn[i] = qIn[i] + 1; for(int j = 0; j < nEdges; ++j) { neighborIds[i * nEdges + j] = neighborIds[i * nEdges + j] + 1; } for(int j = 0; j < nEdges; ++j) { typeInterface[i * nEdges + j] = typeInterface[i * nEdges + j] + 1; } } }

これは、キャッシュミスがスローダウンの原因であることをある程度示しています。また、変数は依存関係にないため、スレッド化されたソリューションを簡単に作成できることに注意することも重要です。

注文が復元されました

ステファンのコメントによると、元のサイズを使用して構造体にグループ化しようとしました。これにより、同様の方法で即時のキャッシュ圧力が取り除かれます。その結果、c ++（CCFLAG -O3）バージョンはJavaバージョンよりも約15％高速です。

ショートでもプリティでもない警告

#include <vector> #include <cmath> #include <iostream> class FloodIsolation { struct item{ char floodedCells; char floodedCellsTimeInterval; double valueOfCellIds; double h; double h0; double vU; double vV; double vUh; double vVh; double vUh0; double vVh0; double sfx; double sfy; double qInflow; double qStartTime; double qEndTime; double qIn; double nx; double ny; double ghh; double floorLevels; int lowerFloorCells; char flagInterface; char floorCompletelyFilled; double cellLocationX; double cellLocationY; double cellLocationZ; int levelOfCell; }; struct inner_item{ int typeInterface; int neighborIds; }; std::vector<inner_item> inner_data; std::vector<item> data; public: FloodIsolation() : numberOfCells(20000), inner_data(numberOfCells * nEdges), data(numberOfCells) { } ~FloodIsolation(){ } void isUpdateNeeded() { for (int i = 0; i < numberOfCells; ++i) { data[i].h = data[i].h + 1; data[i].floodedCells = !data[i].floodedCells; data[i].floodedCellsTimeInterval = !data[i].floodedCellsTimeInterval; data[i].qInflow = data[i].qInflow + 1; data[i].qStartTime = data[i].qStartTime + 1; data[i].qEndTime = data[i].qEndTime + 1; data[i].lowerFloorCells = data[i].lowerFloorCells + 1; data[i].cellLocationX = data[i].cellLocationX + 1; data[i].cellLocationY = data[i].cellLocationY + 1; data[i].cellLocationZ = data[i].cellLocationZ + 1; data[i].levelOfCell = data[i].levelOfCell + 1; data[i].valueOfCellIds = data[i].valueOfCellIds + 1; data[i].h0 = data[i].h0 + 1; data[i].vU = data[i].vU + 1; data[i].vV = data[i].vV + 1; data[i].vUh = data[i].vUh + 1; data[i].vVh = data[i].vVh + 1; data[i].vUh0 = data[i].vUh0 + 1; data[i].vVh0 = data[i].vVh0 + 1; data[i].ghh = data[i].ghh + 1; data[i].sfx = data[i].sfx + 1; data[i].sfy = data[i].sfy + 1; data[i].qIn = data[i].qIn + 1; for(int j = 0; j < nEdges; ++j) { inner_data[i * nEdges + j].neighborIds = inner_data[i * nEdges + j].neighborIds + 1; inner_data[i * nEdges + j].typeInterface = inner_data[i * nEdges + j].typeInterface + 1; } } } static const int nEdges; private: const int numberOfCells; }; const int FloodIsolation::nEdges = 6; int main() { FloodIsolation isolation; clock_t start = clock(); for (int i = 0; i < 4400; ++i) { if(i % 100 == 0) { std::cout << i << "
"; } isolation.isUpdateNeeded(); } clock_t stop = clock(); std::cout << "Time: " << difftime(stop, start) / 1000 << "
"; }

私の結果は、元のサイズのJerry Coffinsとは若干異なります。私にとっては違いが残っています。私のJavaバージョン、1.7.0_75。

Jerry Coffin · Answer

@CapteGiraffeの答えに対するコメントで@Stefanが推測したように、ベクトルの構造体の代わりに構造体のベクトルを使用することでかなりの利益を得ることができます。修正されたコードは次のようになります。

#include <vector> #include <cmath> #include <iostream> #include <time.h> class FloodIsolation { public: FloodIsolation() : h(0), floodedCells(0), floodedCellsTimeInterval(0), qInflow(0), qStartTime(0), qEndTime(0), lowerFloorCells(0), cellLocationX(0), cellLocationY(0), cellLocationZ(0), levelOfCell(0), valueOfCellIds(0), h0(0), vU(0), vV(0), vUh(0), vVh(0), vUh0(0), vVh0(0), ghh(0), sfx(0), sfy(0), qIn(0), typeInterface(nEdges, 0), neighborIds(nEdges, 0) { } ~FloodIsolation(){ } void Update() { h = h + 1; floodedCells = !floodedCells; floodedCellsTimeInterval = !floodedCellsTimeInterval; qInflow = qInflow + 1; qStartTime = qStartTime + 1; qEndTime = qEndTime + 1; lowerFloorCells = lowerFloorCells + 1; cellLocationX = cellLocationX + 1; cellLocationY = cellLocationY + 1; cellLocationZ = cellLocationZ + 1; levelOfCell = levelOfCell + 1; valueOfCellIds = valueOfCellIds + 1; h0 = h0 + 1; vU = vU + 1; vV = vV + 1; vUh = vUh + 1; vVh = vVh + 1; vUh0 = vUh0 + 1; vVh0 = vVh0 + 1; ghh = ghh + 1; sfx = sfx + 1; sfy = sfy + 1; qIn = qIn + 1; for(int j = 0; j < nEdges; ++j) { ++typeInterface[j]; ++neighborIds[j]; } } private: static const int nEdges = 6; bool floodedCells; bool floodedCellsTimeInterval; std::vector<int> neighborIds; double valueOfCellIds; double h; double h0; double vU; double vV; double vUh; double vVh; double vUh0; double vVh0; double ghh; double sfx; double sfy; double qInflow; double qStartTime; double qEndTime; double qIn; double nx; double ny; double floorLevels; int lowerFloorCells; bool flagInterface; std::vector<int> typeInterface; bool floorCompleteleyFilled; double cellLocationX; double cellLocationY; double cellLocationZ; int levelOfCell; }; int main() { std::vector<FloodIsolation> isolation(20000); clock_t start = clock(); for (int i = 0; i < 400; ++i) { if(i % 100 == 0) { std::cout << i << "
"; } for (auto &f : isolation) f.Update(); } clock_t stop = clock(); std::cout << "Time: " << difftime(stop, start) / 1000 << "
"; }

-EHsc -O2b2 -GL -Qparを使用してVC++ 2015 CTPのコンパイラでコンパイルすると、次のような結果が得られます。

0 100 200 300 Time: 0.135

G ++でコンパイルすると、結果が少し遅くなります。

0 100 200 300 Time: 0.156

同じハードウェア上で、Java 8u45のコンパイラ/ JVMを使用すると、次のような結果が得られます。

0 100 200 300 Time: 181

これは、VC++のバージョンよりも約35％遅く、g ++のバージョンよりも約16％遅いです。

反復回数を目的の2000に増やすと、差はわずか3％に低下します。この場合のC++の利点の一部は、実際には実行そのものではなく、単に高速な読み込み（Javaの永続的な問題）であることを示唆しています。この場合、これは驚くことではありません。測定されている計算（投稿されたコードで）は非常に簡単なので、ほとんどのコンパイラが最適化するために多くのことを行うことができるとは思えません。

Galik · Answer

これはメモリの割り当てに関するものだと思います。

Javaはプログラムの起動時に大きな連続ブロックを取得するのに対し、C++はOSにビットとピースを要求します。

この理論をテストするために、C++バージョンに1つの変更を加えたところ、突然Javaバージョンよりもわずかに速く動作し始めました。

int main() { { // grab a large chunk of contiguous memory and liberate it std::vector<double> alloc(20000 * 20); } FloodIsolation isolation; clock_t start = clock(); for (int i = 0; i < 400; ++i) { if(i % 100 == 0) { std::cout << i << "
"; } isolation.isUpdateNeeded(); } clock_t stop = clock(); std::cout << "Time: " << (1000 * difftime(stop, start) / CLOCKS_PER_SEC) << "
"; }

ランタイムなし事前割り当てベクトル：

0 100 200 300 Time: 1250.31

ランタイムwith事前割り当てベクトル：

0 100 200 300 Time: 331.214

Javaバージョンのランタイム：

0 100 200 300 Time: 407