SSE / AVXでdouble / int64変換を効率的に実行するにはどうすればよいですか？

Question

SSE2には、単精度浮動小数点数と32ビット整数の間でベクトルを変換するための命令があります。

_mm_cvtps_epi32()
_mm_cvtepi32_ps()

ただし、倍精度および64ビット整数に相当するものはありません。言い換えれば、それらは欠落しています：

_mm_cvtpd_epi64()
_mm_cvtepi64_pd()

AVXにもそれらがないようです。

これらの組み込み関数をシミュレートする最も効率的な方法は何ですか？

Mysticial · Accepted Answer

角を切りたい場合は、double <-> int64変換を2つの手順で実行できます。

無限大やNaNを気にしない場合。
double <-> int64_tの場合、[-2^51, 2^51]の範囲の値のみを考慮します。
double <-> uint64_tの場合、[0, 2^52)の範囲の値のみを考慮します。

double-> uint64_t

// Only works for inputs in the range: [0, 2^52) __m128i double_to_uint64(__m128d x){ x = _mm_add_pd(x, _mm_set1_pd(0x0010000000000000)); return _mm_xor_si128( _mm_castpd_si128(x), _mm_castpd_si128(_mm_set1_pd(0x0010000000000000)) ); }

double-> int64_t

// Only works for inputs in the range: [-2^51, 2^51] __m128i double_to_int64(__m128d x){ x = _mm_add_pd(x, _mm_set1_pd(0x0018000000000000)); return _mm_sub_epi64( _mm_castpd_si128(x), _mm_castpd_si128(_mm_set1_pd(0x0018000000000000)) ); }

uint64_t-> double

// Only works for inputs in the range: [0, 2^52) __m128d uint64_to_double(__m128i x){ x = _mm_or_si128(x, _mm_castpd_si128(_mm_set1_pd(0x0010000000000000))); return _mm_sub_pd(_mm_castsi128_pd(x), _mm_set1_pd(0x0010000000000000)); }

int64_t-> double

// Only works for inputs in the range: [-2^51, 2^51] __m128d int64_to_double(__m128i x){ x = _mm_add_epi64(x, _mm_castpd_si128(_mm_set1_pd(0x0018000000000000))); return _mm_sub_pd(_mm_castsi128_pd(x), _mm_set1_pd(0x0018000000000000)); }

丸め動作：

double -> uint64_t変換の場合、丸めは現在の丸めモードに従って正しく機能します。（通常は四捨五入です）
double -> int64_t変換の場合、丸めは、切り捨てを除くすべてのモードで現在の丸めモードに従います。現在の丸めモードが切り捨て（ゼロに向かって丸める）の場合、実際には負の無限大に向かって丸められます。

どのように機能しますか？

このトリックはたった2つの命令ですが、それは完全に自明ではありません。

重要なのは、倍精度浮動小数点の場合、[2^52, 2^53)の範囲の値には、仮数の最下位ビットのすぐ下に「2進位」があることを認識することです。つまり、指数ビットと符号ビットをゼロにすると、仮数は正確に整数表現になります。

xをdouble -> uint64_tから変換するには、2^52の浮動小数点値であるマジックナンバーMを追加します。これにより、xが[2^52, 2^53)の「正規化された」範囲に入れられ、小数部分のビットが簡単に丸められます。

あとは上位12ビットを削除するだけです。これは、マスクすることで簡単に実行できます。最速の方法は、これらの上位12ビットがMのビットと同一であることを認識することです。したがって、追加のマスク定数を導入するのではなく、単純に減算するか、XOR by M。XORの方がスループットが高くなります。

uint64_t -> doubleからの変換は、このプロセスの逆です。 Mの指数ビットを追加し直します。次に、浮動小数点のMを減算して、数値の正規化を解除します。

2の補数の符号拡張を処理する必要があるため、符号付き整数の変換は少し注意が必要です。それらは読者の練習問題として残しておきます。

関連： doubleを32ビット整数に丸める高速な方法の説明

フルレンジint64-> double：

何年も経って、ようやくこれが必要になりました。

uint64_t -> doubleの5つの手順
int64_t -> doubleの6つの手順

uint64_t-> double

__m128d uint64_to_double_full(__m128i x){ __m128i xH = _mm_srli_epi64(x, 32); xH = _mm_or_si128(xH, _mm_castpd_si128(_mm_set1_pd(19342813113834066795298816.))); // 2^84 __m128i xL = _mm_blend_epi16(x, _mm_castpd_si128(_mm_set1_pd(0x0010000000000000)), 0xcc); // 2^52 __m128d f = _mm_sub_pd(_mm_castsi128_pd(xH), _mm_set1_pd(19342813118337666422669312.)); // 2^84 + 2^52 return _mm_add_pd(f, _mm_castsi128_pd(xL)); }

int64_t-> double

__m128d int64_to_double_full(__m128i x){ __m128i xH = _mm_srai_epi32(x, 16); xH = _mm_blend_epi16(xH, _mm_setzero_si128(), 0x33); xH = _mm_add_epi64(xH, _mm_castpd_si128(_mm_set1_pd(442721857769029238784.))); // 3*2^67 __m128i xL = _mm_blend_epi16(x, _mm_castpd_si128(_mm_set1_pd(0x0010000000000000)), 0x88); // 2^52 __m128d f = _mm_sub_pd(_mm_castsi128_pd(xH), _mm_set1_pd(442726361368656609280.)); // 3*2^67 + 2^52 return _mm_add_pd(f, _mm_castsi128_pd(xL)); }

これらは64ビット範囲全体で機能し、現在の丸め動作に正しく丸められます。

これらは以下のwimの答えと似ていますが、より乱用的な最適化が施されています。そのため、これらを解読することも、読者の練習問題として残されます。

wim · Answer

この答えは、角を切ることなく、約64ビット整数から倍精度への変換です。この回答の以前のバージョン（以下の段落分割による高速で正確な変換....を参照）では、非常に効率的であることが示されていました。 64ビット整数を32ビットの下位部分と32ビットの上位部分に分割するには、これらの部分をdoubleに変換して、_low + high * 2^32_を計算します。

これらの変換の命令数は次のとおりです。

_int64_to_double_full_range_ 9命令（mulとaddを1つにfma）
_uint64_to_double_full_range_ 7つの命令（mulとaddを1つにfma）

Mysticialの更新された回答に触発され、より適切に最適化された正確な変換を使用して、_int64_t_をさらに最適化して二重変換しました。

_int64_to_double_fast_precise_：5つの命令。
_uint64_to_double_fast_precise_：5つの命令。

_int64_to_double_fast_precise_変換は、Mysticialのソリューションよりも1命令少なくなります。 _uint64_to_double_fast_precise_コードは、基本的にMysticialのソリューションと同じです（ただし、vpblenddの代わりにvpblendwを使用します）。 _int64_to_double_fast_precise_変換と類似しているため、ここに含まれています。命令は同じですが、定数のみが異なります。

_#include <stdio.h> #include <immintrin.h> #include <stdint.h> __m256d int64_to_double_fast_precise(const __m256i v) /* Optimized full range int64_t to double conversion */ /* Emulate _mm256_cvtepi64_pd() */ { __m256i magic_i_lo = _mm256_set1_epi64x(0x4330000000000000); /* 2^52 encoded as floating-point */ __m256i magic_i_hi32 = _mm256_set1_epi64x(0x4530000080000000); /* 2^84 + 2^63 encoded as floating-point */ __m256i magic_i_all = _mm256_set1_epi64x(0x4530000080100000); /* 2^84 + 2^63 + 2^52 encoded as floating-point */ __m256d magic_d_all = _mm256_castsi256_pd(magic_i_all); __m256i v_lo = _mm256_blend_epi32(magic_i_lo, v, 0b01010101); /* Blend the 32 lowest significant bits of v with magic_int_lo */ __m256i v_hi = _mm256_srli_epi64(v, 32); /* Extract the 32 most significant bits of v */ v_hi = _mm256_xor_si256(v_hi, magic_i_hi32); /* Flip the msb of v_hi and blend with 0x45300000 */ __m256d v_hi_dbl = _mm256_sub_pd(_mm256_castsi256_pd(v_hi), magic_d_all); /* Compute in double precision: */ __m256d result = _mm256_add_pd(v_hi_dbl, _mm256_castsi256_pd(v_lo)); /* (v_hi - magic_d_all) + v_lo Do not assume associativity of floating point addition !! */ return result; /* With gcc use -O3, then -fno-associative-math is default. Do not use -Ofast, which enables -fassociative-math! */ /* With icc use -fp-model precise */ } __m256d uint64_to_double_fast_precise(const __m256i v) /* Optimized full range uint64_t to double conversion */ /* This code is essentially identical to Mysticial's solution. */ /* Emulate _mm256_cvtepu64_pd() */ { __m256i magic_i_lo = _mm256_set1_epi64x(0x4330000000000000); /* 2^52 encoded as floating-point */ __m256i magic_i_hi32 = _mm256_set1_epi64x(0x4530000000000000); /* 2^84 encoded as floating-point */ __m256i magic_i_all = _mm256_set1_epi64x(0x4530000000100000); /* 2^84 + 2^52 encoded as floating-point */ __m256d magic_d_all = _mm256_castsi256_pd(magic_i_all); __m256i v_lo = _mm256_blend_epi32(magic_i_lo, v, 0b01010101); /* Blend the 32 lowest significant bits of v with magic_int_lo */ __m256i v_hi = _mm256_srli_epi64(v, 32); /* Extract the 32 most significant bits of v */ v_hi = _mm256_xor_si256(v_hi, magic_i_hi32); /* Blend v_hi with 0x45300000 */ __m256d v_hi_dbl = _mm256_sub_pd(_mm256_castsi256_pd(v_hi), magic_d_all); /* Compute in double precision: */ __m256d result = _mm256_add_pd(v_hi_dbl, _mm256_castsi256_pd(v_lo)); /* (v_hi - magic_d_all) + v_lo Do not assume associativity of floating point addition !! */ return result; /* With gcc use -O3, then -fno-associative-math is default. Do not use -Ofast, which enables -fassociative-math! */ /* With icc use -fp-model precise */ } int main(){ int i; uint64_t j; __m256i j_4; __m256d v; double x[4]; double x0, x1, a0, a1; j = 0ull; printf("
Accurate int64_to_double
"); for (i = 0; i < 260; i++){ j_4= _mm256_set_epi64x(0, 0, -j, j); v = int64_to_double_fast_precise(j_4); _mm256_storeu_pd(x,v); x0 = x[0]; x1 = x[1]; a0 = _mm_cvtsd_f64(_mm_cvtsi64_sd(_mm_setzero_pd(),j)); a1 = _mm_cvtsd_f64(_mm_cvtsi64_sd(_mm_setzero_pd(),-j)); printf(" j =%21li v =%23.1f v=%23.1f -v=%23.1f -v=%23.1f d=%.1f d=%.1f
", j, x0, a0, x1, a1, x0-a0, x1-a1); j = j+(j>>2)-(j>>5)+1ull; } j = 0ull; printf("
Accurate uint64_to_double
"); for (i = 0; i < 260; i++){ if (i==258){j=-1;} if (i==259){j=-2;} j_4= _mm256_set_epi64x(0, 0, -j, j); v = uint64_to_double_fast_precise(j_4); _mm256_storeu_pd(x,v); x0 = x[0]; x1 = x[1]; a0 = (double)((uint64_t)j); a1 = (double)((uint64_t)-j); printf(" j =%21li v =%23.1f v=%23.1f -v=%23.1f -v=%23.1f d=%.1f d=%.1f
", j, x0, a0, x1, a1, x0-a0, x1-a1); j = j+(j>>2)-(j>>5)+1ull; } return 0; } _

安全でない数学最適化オプションが有効になっていると、変換が失敗する可能性があります。 gccでは、_-O3_は安全ですが、ここでは浮動小数点加算の結合性を想定していないため、_-Ofast_は間違った結果につながる可能性があります（Mysticialの変換にも同じことが当てはまります）。 iccでは_-fp-model precise_を使用します。

64ビット整数を32ビットの下位部分と32ビットの上位部分に分割することによる高速で正確な変換。

整数入力と二重出力の両方が256ビット幅のAVXレジスタにあると想定しています。 2つのアプローチが考慮されます。

int64_to_double_based_on_cvtsi2sd()：質問のコメントで示唆されているように、データシャッフルと一緒に_cvtsi2sd_を4回使用します。残念ながら、_cvtsi2sd_とデータシャッフル命令の両方に実行ポート5が必要です。これにより、このアプローチのパフォーマンスが制限されます。
int64_to_double_full_range()：64ビット整数範囲全体の正確な変換を取得するために、Mysticialの高速変換メソッドを2回使用できます。 64ビット整数は、この質問への回答と同様に、32ビットの下位部分と32ビットの上位部分に分割されます。 SSEを使用してuint32/float変換を実行する方法。これらの各部分は、Mysticialの整数から二重への変換に適しています。最後に、高い部分に2 ^ 32を掛けて、低い部分に追加します。 uint64_to_double_full_range()が存在しないため、符号付き変換は符号なし変換（srai_epi64()）よりも少し複雑です。

コード：

_#include <stdio.h> #include <immintrin.h> #include <stdint.h> /* gcc -O3 -Wall -m64 -mfma -mavx2 -march=broadwell cvt_int_64_double.c ./a.out A time ./a.out B time ./a.out C etc. */ inline __m256d uint64_to_double256(__m256i x){ /* Mysticial's fast uint64_to_double. Works for inputs in the range: [0, 2^52) */ x = _mm256_or_si256(x, _mm256_castpd_si256(_mm256_set1_pd(0x0010000000000000))); return _mm256_sub_pd(_mm256_castsi256_pd(x), _mm256_set1_pd(0x0010000000000000)); } inline __m256d int64_to_double256(__m256i x){ /* Mysticial's fast int64_to_double. Works for inputs in the range: (-2^51, 2^51) */ x = _mm256_add_epi64(x, _mm256_castpd_si256(_mm256_set1_pd(0x0018000000000000))); return _mm256_sub_pd(_mm256_castsi256_pd(x), _mm256_set1_pd(0x0018000000000000)); } __m256d int64_to_double_full_range(const __m256i v) { __m256i msk_lo =_mm256_set1_epi64x(0xFFFFFFFF); __m256d cnst2_32_dbl =_mm256_set1_pd(4294967296.0); /* 2^32 */ __m256i v_lo = _mm256_and_si256(v,msk_lo); /* extract the 32 lowest significant bits of v */ __m256i v_hi = _mm256_srli_epi64(v,32); /* 32 most significant bits of v. srai_epi64 doesn't exist */ __m256i v_sign = _mm256_srai_epi32(v,32); /* broadcast sign bit to the 32 most significant bits */ v_hi = _mm256_blend_epi32(v_hi,v_sign,0b10101010); /* restore the correct sign of v_hi */ __m256d v_lo_dbl = int64_to_double256(v_lo); /* v_lo is within specified range of int64_to_double */ __m256d v_hi_dbl = int64_to_double256(v_hi); /* v_hi is within specified range of int64_to_double */ v_hi_dbl = _mm256_mul_pd(cnst2_32_dbl,v_hi_dbl); /* _mm256_mul_pd and _mm256_add_pd may compile to a single fma instruction */ return _mm256_add_pd(v_hi_dbl,v_lo_dbl); /* rounding occurs if the integer doesn't exist as a double */ } __m256d int64_to_double_based_on_cvtsi2sd(const __m256i v) { __m128d zero = _mm_setzero_pd(); /* to avoid uninitialized variables in_mm_cvtsi64_sd */ __m128i v_lo = _mm256_castsi256_si128(v); __m128i v_hi = _mm256_extracti128_si256(v,1); __m128d v_0 = _mm_cvtsi64_sd(zero,_mm_cvtsi128_si64(v_lo)); __m128d v_2 = _mm_cvtsi64_sd(zero,_mm_cvtsi128_si64(v_hi)); __m128d v_1 = _mm_cvtsi64_sd(zero,_mm_extract_epi64(v_lo,1)); __m128d v_3 = _mm_cvtsi64_sd(zero,_mm_extract_epi64(v_hi,1)); __m128d v_01 = _mm_unpacklo_pd(v_0,v_1); __m128d v_23 = _mm_unpacklo_pd(v_2,v_3); __m256d v_dbl = _mm256_castpd128_pd256(v_01); v_dbl = _mm256_insertf128_pd(v_dbl,v_23,1); return v_dbl; } __m256d uint64_to_double_full_range(const __m256i v) { __m256i msk_lo =_mm256_set1_epi64x(0xFFFFFFFF); __m256d cnst2_32_dbl =_mm256_set1_pd(4294967296.0); /* 2^32 */ __m256i v_lo = _mm256_and_si256(v,msk_lo); /* extract the 32 lowest significant bits of v */ __m256i v_hi = _mm256_srli_epi64(v,32); /* 32 most significant bits of v */ __m256d v_lo_dbl = uint64_to_double256(v_lo); /* v_lo is within specified range of uint64_to_double */ __m256d v_hi_dbl = uint64_to_double256(v_hi); /* v_hi is within specified range of uint64_to_double */ v_hi_dbl = _mm256_mul_pd(cnst2_32_dbl,v_hi_dbl); return _mm256_add_pd(v_hi_dbl,v_lo_dbl); /* rounding may occur for inputs >2^52 */ } int main(int argc, char **argv){ int i; uint64_t j; __m256i j_4, j_inc; __m256d v, v_acc; double x[4]; char test = argv[1][0]; if (test=='A'){ /* test the conversions for several integer values */ j = 1ull; printf("
int64_to_double_full_range
"); for (i = 0; i<30; i++){ j_4= _mm256_set_epi64x(j-3,j+3,-j,j); v = int64_to_double_full_range(j_4); _mm256_storeu_pd(x,v); printf("j =%21li v =%23.1f -v=%23.1f v+3=%23.1f v-3=%23.1f 
",j,x[0],x[1],x[2],x[3]); j = j*7ull; } j = 1ull; printf("
int64_to_double_based_on_cvtsi2sd
"); for (i = 0; i<30; i++){ j_4= _mm256_set_epi64x(j-3,j+3,-j,j); v = int64_to_double_based_on_cvtsi2sd(j_4); _mm256_storeu_pd(x,v); printf("j =%21li v =%23.1f -v=%23.1f v+3=%23.1f v-3=%23.1f 
",j,x[0],x[1],x[2],x[3]); j = j*7ull; } j = 1ull; printf("
uint64_to_double_full_range
"); for (i = 0; i<30; i++){ j_4= _mm256_set_epi64x(j-3,j+3,j,j); v = uint64_to_double_full_range(j_4); _mm256_storeu_pd(x,v); printf("j =%21lu v =%23.1f v+3=%23.1f v-3=%23.1f 
",j,x[0],x[2],x[3]); j = j*7ull; } } else{ j_4 = _mm256_set_epi64x(-123,-4004,-312313,-23412731); j_inc = _mm256_set_epi64x(1,1,1,1); v_acc = _mm256_setzero_pd(); switch(test){ case 'B' :{ printf("
Latency int64_to_double_cvtsi2sd()
"); /* simple test to get a rough idea of the latency of int64_to_double_cvtsi2sd() */ for (i = 0; i<1000000000; i++){ v =int64_to_double_based_on_cvtsi2sd(j_4); j_4= _mm256_castpd_si256(v); /* cast without conversion, use output as an input in the next step */ } _mm256_storeu_pd(x,v); } break; case 'C' :{ printf("
Latency int64_to_double_full_range()
"); /* simple test to get a rough idea of the latency of int64_to_double_full_range() */ for (i = 0; i<1000000000; i++){ v = int64_to_double_full_range(j_4); j_4= _mm256_castpd_si256(v); } _mm256_storeu_pd(x,v); } break; case 'D' :{ printf("
Throughput int64_to_double_cvtsi2sd()
"); /* simple test to get a rough idea of the throughput of int64_to_double_cvtsi2sd() */ for (i = 0; i<1000000000; i++){ j_4 = _mm256_add_epi64(j_4,j_inc); /* each step a different input */ v = int64_to_double_based_on_cvtsi2sd(j_4); v_acc = _mm256_xor_pd(v,v_acc); /* use somehow the results */ } _mm256_storeu_pd(x,v_acc); } break; case 'E' :{ printf("
Throughput int64_to_double_full_range()
"); /* simple test to get a rough idea of the throughput of int64_to_double_full_range() */ for (i = 0; i<1000000000; i++){ j_4 = _mm256_add_epi64(j_4,j_inc); v = int64_to_double_full_range(j_4); v_acc = _mm256_xor_pd(v,v_acc); } _mm256_storeu_pd(x,v_acc); } break; default : {} } printf("v =%23.1f -v =%23.1f v =%23.1f -v =%23.1f 
",x[0],x[1],x[2],x[3]); } return 0; } _

これらの関数の実際のパフォーマンスは、周囲のコードとCPUの生成に依存する場合があります。

Intel Skylake i5 6500システムでの上記のコードの簡単なテストB、C、D、およびEを使用した1e9変換（256ビット幅）のタイミング結果：

_Latency experiment int64_to_double_based_on_cvtsi2sd() (test B) 5.02 sec. Latency experiment int64_to_double_full_range() (test C) 3.77 sec. Throughput experiment int64_to_double_based_on_cvtsi2sd() (test D) 2.82 sec. Throughput experiment int64_to_double_full_range() (test E) 1.07 sec. _

int64_to_double_full_range()とint64_to_double_based_on_cvtsi2sd()のスループットの差は予想よりも大きいです。