GLSLの効率的なバイキュービックフィルタリングコード？

Question

Glslでバイキュービックテクスチャフィルタリングを実行するための完全で機能的で効率的なコードを誰かが持っているかどうか疑問に思っています。これがあります：

http://www.codeproject.com/Articles/236394/Bi-Cubic-and-Bi-Linear-Interpolation-with-GLSL または https://github.com/visionworkbench /visionworkbench/blob/master/src/vw/GPU/Shaders/Interp/interpolation-bicubic.glsl

ただし、どちらも16のテクスチャ読み取りを実行し、4つだけが必要です。

https://groups.google.com/forum/#!topic/comp.graphics.api.opengl/kqrujgJfTxo

ただし、上記のメソッドは、何をすべきかわからない欠落している「cubic（）」関数を使用し、説明のつかない「texscale」パラメーターも取ります。

NVidiaバージョンもあります：

https://developer.nvidia.com/gpugems/gpugems2/part-iii-high-quality-rendering/chapter-20-fast-third-order-texture-filtering

しかし、これはNVidiaのカードに固有のCUDAを使用していると思います。 glslが必要です。

おそらくnvidiaバージョンをglslに移植することもできますが、最初に、完全に機能するglslバイキューブシェーダーを誰かがすでに持っているかどうかを確認するように依頼したいと思いました。

t0rakka · Accepted Answer

私は少し時間を取って古いPerforceアクティビティを掘り下げることにし、不足しているcubic（）関数を見つけました。楽しい！ :)

vec4 cubic(float v) { vec4 n = vec4(1.0, 2.0, 3.0, 4.0) - v; vec4 s = n * n * n; float x = s.x; float y = s.y - 4.0 * s.x; float z = s.z - 4.0 * s.y + 6.0 * s.x; float w = 6.0 - x - y - z; return vec4(x, y, z, w); }

masterxilo · Answer

私は、texture（）のドロップイン置換として使用できるこの実装を見つけました（ http://www.Java-gaming.org/index.php?topic=35123. （1つのタイプミスを修正）））：:

// from http://www.Java-gaming.org/index.php?topic=35123.0 vec4 cubic(float v){ vec4 n = vec4(1.0, 2.0, 3.0, 4.0) - v; vec4 s = n * n * n; float x = s.x; float y = s.y - 4.0 * s.x; float z = s.z - 4.0 * s.y + 6.0 * s.x; float w = 6.0 - x - y - z; return vec4(x, y, z, w) * (1.0/6.0); } vec4 textureBicubic(sampler2D sampler, vec2 texCoords){ vec2 texSize = textureSize(sampler, 0); vec2 invTexSize = 1.0 / texSize; texCoords = texCoords * texSize - 0.5; vec2 fxy = fract(texCoords); texCoords -= fxy; vec4 xcubic = cubic(fxy.x); vec4 ycubic = cubic(fxy.y); vec4 c = texCoords.xxyy + vec2 (-0.5, +1.5).xyxy; vec4 s = vec4(xcubic.xz + xcubic.yw, ycubic.xz + ycubic.yw); vec4 offset = c + vec4 (xcubic.yw, ycubic.yw) / s; offset *= invTexSize.xxyy; vec4 sample0 = texture(sampler, offset.xz); vec4 sample1 = texture(sampler, offset.yz); vec4 sample2 = texture(sampler, offset.xw); vec4 sample3 = texture(sampler, offset.yw); float sx = s.x / (s.x + s.y); float sy = s.z / (s.z + s.w); return mix( mix(sample3, sample2, sx), mix(sample1, sample0, sx) , sy); }

例：最も近い、双一次、双三次：

この画像のImageDataは

{{{0.698039, 0.996078, 0.262745}, {0., 0.266667, 1.}, {0.00392157, 0.25098, 0.996078}, {1., 0.65098, 0.}}, {{0.996078, 0.823529, 0.}, {0.498039, 0., 0.00392157}, {0.831373, 0.00392157, 0.00392157}, {0.956863, 0.972549, 0.00784314}}, {{0.909804, 0.00784314, 0.}, {0.87451, 0.996078, 0.0862745}, {0.196078, 0.992157, 0.760784}, {0.00392157, 0.00392157, 0.498039}}, {{1., 0.878431, 0.}, {0.588235, 0.00392157, 0.00392157}, {0.00392157, 0.0666667, 0.996078}, {0.996078, 0.517647, 0.}}}

私はこれを再現しようとしました（他の多くの補間手法）

しかし、私が境界を繰り返している（折り返している）間、それらはパディングをクランプしています。したがって、それは完全に同じではありません。

このバイキュービックビジネスは適切な補間ではないようです。つまり、データが定義された時点で元の値を取りません。

Maf · Answer

JAreの回答にない関数cubic()は、次のようになります。

vec4 cubic(float x) { float x2 = x * x; float x3 = x2 * x; vec4 w; w.x = -x3 + 3*x2 - 3*x + 1; w.y = 3*x3 - 6*x2 + 4; w.z = -3*x3 + 3*x2 + 3*x + 1; w.w = x3; return w / 6.f; }

キュービックBスプラインの4つの重みを返します。

それはすべて NVidia Gems で説明されています。

t0rakka · Answer

ワオ。私は2011年の初めにそれを思いついたので、上記のコード（評判<50でコメントすることはできません）を認識しています。私が解決しようとしていた問題は、古いIBM T42（正確なモデル番号は私を逃れます）ラップトップとそれはATIグラフィックスタックです。私はNVカードでコードを開発し、当初は16個のテクスチャフェッチを使用していました。それはちょっと遅いですが、私の目的には十分な速さでした。誰かが自分のラップトップでは機能しないと報告したとき、フラグメントごとに十分なテクスチャフェッチをサポートしていないことが明らかになりました。私は回避策を設計する必要があり、私が思いつくことができた最善の方法は、機能するテクスチャフェッチの数でそれを行うことでした。

私はそれを次のように考えました：わかりました、それで、線形フィルターで各クワッド（2x2）を処理する場合、残りの問題は行と列が重みを共有できるかどうかです。私がコードの作成に着手したとき、それが私の頭の中で唯一の問題でした。もちろん、それらを共有することもできます。重みは各列と行で同じです。完璧！

今、私は4つのサンプルを持っていました。残りの問題は、サンプルを正しく組み合わせる方法でした。それが克服すべき最大の障害でした。鉛筆と紙で約10分かかりました。震える手でコードを入力すると、うまくいきました、ニース。それから私は彼のT42（？）でそれをチェックすることを約束した男にバイナリをアップロードしました、そして彼はそれがうまくいったと報告しました。終わり。 :)

方程式がチェックアウトし、サンプルを個別に計算するのと数学的に同じ結果が得られることを保証できます。参考：CPUを使用すると、水平スキャンと垂直スキャンを別々に実行する方が高速です。 GPUを使用する場合、特に一般的なユースケースではおそらく実現不可能な場合は特に、複数のパスはそれほど優れたアイデアではありません。

思考の糧：cubic（）関数にテクスチャルックアップを使用することが可能です。どちらが速いかはGPUによって異なりますが、一般的に言えば、サンプラーはALU側では軽く、演算を実行するだけでバランスが取れます。 YMMV。

JAre · Answer

（編集）

Cubic（）は次スプライン関数

例：

cubic spline

Texscaleは、サンプリングウィンドウサイズ係数です。 1.0の値から始めることができます。

vec4 filter(sampler2D texture, vec2 texcoord, vec2 texscale) { float fx = fract(texcoord.x); float fy = fract(texcoord.y); texcoord.x -= fx; texcoord.y -= fy; vec4 xcubic = cubic(fx); vec4 ycubic = cubic(fy); vec4 c = vec4(texcoord.x - 0.5, texcoord.x + 1.5, texcoord.y - 0.5, texcoord.y + 1.5); vec4 s = vec4(xcubic.x + xcubic.y, xcubic.z + xcubic.w, ycubic.x + ycubic.y, ycubic.z + ycubic.w); vec4 offset = c + vec4(xcubic.y, xcubic.w, ycubic.y, ycubic.w) / s; vec4 sample0 = texture2D(texture, vec2(offset.x, offset.z) * texscale); vec4 sample1 = texture2D(texture, vec2(offset.y, offset.z) * texscale); vec4 sample2 = texture2D(texture, vec2(offset.x, offset.w) * texscale); vec4 sample3 = texture2D(texture, vec2(offset.y, offset.w) * texscale); float sx = s.x / (s.x + s.y); float sy = s.z / (s.z + s.w); return mix( mix(sample3, sample2, sx), mix(sample1, sample0, sx), sy); }

ソース

Danny Ruijters · Answer

GLSLコードに興味のある人はtri-キュービック補間、キュービック補間を使用したレイキャスティングコードはexamples/glCubicRayCastフォルダーにあります：- http://www.dannyruijters.nl/cubicinterpolation/CI.Zip

編集：3次補間コードがgithubで利用可能になりました： [〜＃〜] cuda [〜＃〜] バージョンと WebGL バージョン、そして [〜＃〜] glsl [〜＃〜] サンプル。

Christopher Bruns · Answer

@Mafの3次スプラインレシピを1年以上使用していますが、3次Bスプラインがニーズを満たす場合は、これをお勧めします。

しかし、最近、私の特定のアプリケーションでは、強度がサンプルポイントで正確に一致することが重要であることに気付きました。そこで、次のように少し異なるレシピを使用するCatmull-Romスプラインの使用に切り替えました。

// Catmull-Rom spline actually passes through control points vec4 cubic(float x) // cubic_catmullrom(float x) { const float s = 0.5; // potentially adjustable parameter float x2 = x * x; float x3 = x2 * x; vec4 w; w.x = -s*x3 + 2*s*x2 - s*x + 0; w.y = (2-s)*x3 + (s-3)*x2 + 1; w.z = (s-2)*x3 + (3-2*s)*x2 + s*x + 0; w.w = s*x3 - s*x2 + 0; return w; }

これらの係数に加えて、他の多くの種類の3次スプラインの係数を次の講義ノートで見つけました： http://www.cs.cmu.edu/afs/cs/academic/class/15462-s10 /www/lec-slides/lec06.pdf

Stephen Todd · Answer

Catmullバージョンは、（a）ポジティブとネガティブとして保存された代替スロットを備えたチェス盤のように入力テクスチャを配置し、（b）textureBicubicの関連する変更によって、4つのテクスチャルックアップで実行できる可能性があると思います。それは、寄与/重みw.x/w.wが常に負であり、寄与w.y /w.zが常に正であることに依存します。これが本当かどうか、または変更されたtextureBicubicがどのように見えるかを正確に再確認していません。

... wの貢献が+ ve-veのルールを満たしていることを確認しました。