web-dev-qa-db-ja.com

A / Bテストに関して、サンプルサイズと効果サイズは何を意味しますか?

A/Bテストに関して、「サンプルサイズ」と「エフェクトサイズ」は何を意味しますか?誰でも簡単な言葉で例を説明できますか?

4
Jitendra Vyas

効果サイズ

A/Bテストでは、効果サイズは、AとBの間で観察されたパフォーマンスの違いです。たとえば、次のA/B結果を見てください。

  • A:103回の訪問のうち10回のコンバージョン
  • B:97回の訪問のうち6回のコンバージョン。

したがって、Aの変換率は10/103 = 9.71%で、Bの変換率は6/97 = 6.19%です。データは、多くの訪問で、Aが9.71/6.19 – 1 = 57%多いコンバージョンを獲得することを示唆しています。したがって、相対的な比例差で示される効果サイズは57%です。他にも効果の大きさの測定がありますが、相対的な比例の違いは、より便利で直感的なものの1つです。あなたはそれを見て、「ええ、57%はかなり大きな違いです」と言うことができます。たとえば、57%の効果サイズは、各コンバージョンの平均値が変わらないと仮定すると、AよりもBの方が57%多い収益を期待できることを意味します。それは多額の「引き上げ」です。

サンプルサイズ

サンプルサイズは、A/Bテストのビジター数、またはこの例では103 + 97 = 200です。これは、偶然の影響に関して持つべき自信に関連しています。この200回の訪問のテストでは、AがBを上回りましたが、ユーザーはコインの単純なデジタルフリップによってAまたはBを与えられました(正しく実行した場合)。このランダム性の要素を考えると、AがたまたまAまたはBを取得したかどうかに関係なくコンバージョンに至ったユーザーをさらに獲得した可能性があります。おそらく、A対Bのreal効果はありません。たぶんAはラッキーになりました。

直感的には、サンプルサイズが大きいほど、偶然にAがBよりもパフォーマンスが低下する可能性が高い(またはその逆)と感じています。人々は、サンプルサイズを使用して、Aが実際にBよりも優れていると信じるべきか、それとも当然の結果として結果を却下すべきかを判断します。だから、誰もがサンプルサイズを知るのが好きです。

サンプルサイズは廃人です

ただし、実際には、サンプルサイズ自体はほとんど意味がありません。 A対Bが実際に効果があるかどうかについて、数値を見て信頼できる結論を出すことはできません。サンプルサイズが2,000,000の場合、偶然の影響はかなりありそうです。サンプルサイズが20の場合、偶然の影響はほとんどありません。

AとBの対比が実際に影響を及ぼさない場合、AとBの確率を計算するは、テストと同じように見える可能性があります(および統計のルーチン)。その確率が「p値」です。それがあなたが本当に知りたいことです。

上記の例のp値は0.439です。 A対Bの効果がない場合は、43.9%の確率でそのような結果が表示されます。 Aの主張する「優位性」にあまり興奮しないでください。*

サンプルサイズはp値の計算におけるパラメーターですが、サンプルサイズ自体は非常に誤解を招く可能性があります。まず、一般的なA/Bテストでは、コンバージョン率が非常に低いため、non-conversionsの数が多くても、どちらにしても問題ありません。たとえば、次のことを考慮してください。

  • A:1030回の訪問のうち10回のコンバージョン
  • B:970回の訪問のうち6回のコンバージョン。

エフェクトサイズは変更されていません。AはBよりも57%優れています。変換率が以前の10分の1であるだけです(おそらくより現実的です)。

しかし、ウーフー! 2000人の訪問者! 10回サンプルサイズ!しかし、実際のp値は何ですか? 0.456。脂肪が多いほど、サンプルサイズが大きくなります。

効果のサイズはp値に影響します。テストでAとBの差が大きいほど、チャンスが結果を生成する可能性が低くなります。つまり、確かに、AはBよりもfew変換準備の整ったユーザーを獲得する可能性がありますが、バットロードの方が多いですか?それは信頼性に負担をかけます。 Aはとても幸運になることができます。 200のサンプルサイズを考えますが、Aが実際にBを吹き飛ばします。

  • A:103回の訪問のうち18回のコンバージョン
  • B:97回の訪問のうち6回のコンバージョン。

相対比例差は282%-Aの変換率はほぼ Bです。しかし、もっと重要なこと(har har *)、p値は0.0165です。 A対Bが実際に影響を及ぼさないのは本当に信じられないことです。私はAが本当に優れていると確信しています。

恥知らずなプラグイン

統計と使いやすさの詳細については、私の 一連の投稿 を参照してください。 Stat 101 は、概念の数学的ではない概要です。 Stat 2 A/Bテストをカバーします。


* p値を解釈するには、「統計的有意性」の科学的伝統に近いものをお勧めします。p値が0.05以下であれば、A対Bが実際の効果であることがわかります。 IMO、0.10付近のp値は、実際の効果がないと思わせるかもしれませんが、特に効果のサイズが大きい場合は、結果を必ずしも拒否するべきではありません。 0.20以上のp値を持つ結果は、効果の大きさに関係なく、真剣に受け取られるべきではありません。効果のサイズが大きい場合は、A/Bテストを実行し続け、それが成立してp値が下がるかどうかを確認するように指示します。ところで、私はフィッシャーの正確検定を使用してこの回答のp値を計算しました。これはA/B検定に適した選択肢です。

10

(非常に)簡単な言葉で:

  • サンプルサイズ-A/Bテストに含まれる訪問者(参加者)の数

  • 効果サイズ-AとBの違い

(非常に)単純な例(A/Bテスト結果):

  • バリエーションA:5万人の訪問者のうち1000人のコンバージョン
  • バリエーションB:5万人の訪問者のうち1400回のコンバージョン。

A/Bテストの合計サンプルサイズ-100 000人の訪問者=バリエーションA +バリエーションB.

A/Bテスト効果サイズ-バリエーションBのコンバージョン率(2.80%)は、バリエーションAのコンバージョン率(2.00%)より40.00%高くなっています。

もちろん、それだけではありません。 A/Bテストの開始に関する良い記事:

1
Emīls Vēveris

要約すると:

サンプルサイズ:テストから良い結果が得られた参加者の数について話します。参加者が多すぎると、最良の結果が得られないか、すべての欠陥を見つけるのに役立ちません。ほとんどの問題は5人のユーザーによって明らかにされます。さらに多くのユーザーが関与している場合、新しい問題が見つかるかどうかはわかりませんが、同じ問題が見つかる可能性があります。ただし、ユーザーの「数」は、実施している研究の種類によって異なります。

詳細については、 https://www.nngroup.com/articles/how-many-test-users/http://www.humanfactors.com/newsletters/how_many_test_participantsをご覧ください。 .asp

効果のサイズ:詳細は http://www.measuringu.com/blog/effect-sizes.php

0
Deekshit-CUA