3ポイントリッカートスケールの基準カットオフを設定する方法

Question

リッカート尺度でカットオフスコアをどのように設定するか知りたいのですが。私は3ポイントシステムを使用します：同意する、未決定、同意しない。私はグーグルしていて、平均、分散、およびsdを見つける必要があることを読みました。しかし、彼らと次に何をすべきかを見つけることができませんでした。ありがとう！

Michael Zuschlag · Answer

2つの問題があるようです。 1つは、アンケートのスコアが実際に何を意味するか（0.6はどれくらい良いか）を把握することです。もう1つは、スコアにカットオフを割り当てて、一連のアクションを一貫して決定する方法です（デザインの準備ができていると判断するスコアはどれか）。生産のため？）.

例として、このアンケートではWebサイトに対するユーザーの満足度を測定し、そのWebサイトが「許容できる」かどうかを判断するとします。 5つのアイテムがあり（それぞれ3ポイントスケールで1 =同意する、0 =中立、1 =同意しない）、アイテムを平均して全体のスコアを取得するとします。

スコアに意味を置く

リッカートのアンケートには基本的に任意のスコア値があるため、数値がどれほど優れているかを実際に理解するには、数値を何かに関連付ける必要があります。ここにいくつかのオプションがあります：

質問内容

リッカートアイテムの意味の意味を調べ、特定のスコアについて、Webサイトにとって「同意する」と「同意しない」の同等の割合が何を意味するかを自問してください。たとえば、平均スコアが-0.2だとします。これは、ユーザーが2つの項目に同意し、3つの項目に同意しないことに相当します。すべてのアイテムが意味的にウェブサイトの十分に良い意見を表している場合（たとえば、「この種の情報が必要な場合は、このウェブサイトを再び利用したいと思います」）、平均してほとんどのアイテムに同意しないことはかなり示唆しています業績不振。良いパフォーマンスは、ある種の正の数になります。一方、すべての項目が優れた意見を表している場合（たとえば、「これは宇宙で最も素晴らしいサイトです」）、-0.2はそれほど悪くありません。5つのうち最大2つの「優れた」が実際にはかなり良いです。良い。

ノルム

多数のユーザーにアンケートを使用してWebサイトの大規模なランダムサンプルを評価し、これらのデータを使用して、特定のスコアが他のスコアと比較してどこにあるかを比較します。たとえば、200サイトの評価（不当な数ではない）があり、-0.2スコアがサンプルの62サイトのスコアよりも大きい場合、-0.2は62/200 * 100 = 31番目に対応しますパーセンタイル。かなり悪い：そこにあるサイトの3分の2以上が優れています。そして、あなたは平均的なウェブサイトがどのようなものであるかを見ましたか？

あなたは平均と標準偏差に言及します。基準を使用するために、サイトのサンプルの平均と標準偏差は必ずしも必要ではありません。スコアが他のスコアのどこにあるかを確認してください。平均と標準偏差を使用して、標準スコアからパーセンタイルを計算できます。標準スコア（z）は

z =（L – M）/ S

ここで、Lは（ユーザーの同じまたは異なるサンプルからの）1つのWebサイトの平均アンケートスコア、Mはサイトのサンプルの平均アンケートスコア、Sはサイトのアンケートスコアのサンプルの標準偏差（差異は必要ありません）。標準スコアを使用すると、正規分布を使用してパーセンタイルを推定できます。これを行う最も簡単な方法は、zをExcelのNORMSDIST（）関数に接続することです。

標準スコアの使用が役立つのは、Webサイトのサンプルが多くない場合のみであり、サンプルのスコアがどこにあるかを単に調べるだけでは細かすぎます（たとえば、サンプルが10しかない場合は、正確にすることができます） 10パーセンタイルポイントまで）。ただし、標準スコアを使用する場合、スコアが正規分布していることを前提としています。多分そうではありません。たとえそうであっても、小さなサンプルサイズから平均的なWebサイトを正確に推定することはできないので、気にしないでください。

相関する

ユーザーにアンケートでランダムな一連のサイトを評価してもらい、サイトの使いやすさの他の測定も行います（たとえば、完了までの時間、ユーザーエラーの数、変換の有無、ユーザーが正しいものを見つける必要がある質問に対する正しい答えの数など）。ウェブサイト上の情報）。アンケートのスコアを他の指標と関連付けます。相関の高いすべてのメジャー（ピアソン相関係数は少なくとも0.7ですが、0.3まで下げることもできます）について、他のメジャーでアンケートスコアの線形回帰を実行します。結果の方程式は、入力されたアンケートスコアの対応するパフォーマンスを示します。たとえば、「スコアが-0.2のサイトでは、平均してユーザーが3.3エラーを発生させる」と言うことができます。これは、スコア自体よりも意味がある場合があります。

通常、これは、機能とタスクが類似している一連のサイトでのみ機能します（たとえば、すべてが航空会社のサイトであり、ユーザーがフライトを予約しようとしている）。それ以外の場合は、タスクが非常に異なっているために他のメジャーがすべての場所にあり、相関関係が低下します。実際、アンケートで測定された主観的な満足度は、効率やエラー防止などのユーザビリティとは異なる側面があるため、相関関係はとにかく低い場合があります。

明らかに、これは、他の指標のパフォーマンスを直接測定するよりも、問題のサイトのアンケートを使用する方が簡単な場合にのみ意味があります。

他のサイトとの比較

問題のサイトと同等またはそれ以上のパフォーマンスが必要なサイトを選択します。「標準」（Amazonなど）、競合他社、現在運用中のサイト、初期の設計の反復などが考えられます。多数のユーザーに、問題のサイトと比較サイトの両方を評価してもらいます。新しいサイトを評価するユーザーの数を数えます。これで、「平均して、3人のユーザーのうち約2人が新しいサイトをより高く評価した」と言うことができます。

各ユーザーのサイトから比較サイトのスコアを差し引き、ユーザーのサンプルの差異スコアの平均（D）と標準偏差（s）を計算してから、標準スコアを次のように計算することもできます。

z = D/s

NORMSDIST（）にzを接続すると、差のスコアが正規分布であるという仮定の下で、問題のサイトでより良い成果を上げているユーザーの推定パーセンテージが得られます。

（推論統計に関する補足事項）

上記のすべての方法で、ユーザーのサンプル（おそらくかなり小さいサンプル）を使用して、問題のサイトでアンケートのスコアを取得しているため、サンプリングエラーによりスコアが特定の範囲で簡単に外れる可能性があります。その範囲が合理的に何であるかを判断するには、95％または90％の信頼区間を計算して（どの程度の信頼度が望ましいか）、上位と下位のスコアを取得し、各スコアに対して上記の選択した方法を実行して結果の範囲を取得します（例えば、「16パーセンタイルと45パーセンタイルの間」）。信頼区間は次のとおりです。

下限= L – t * s/sqrt（n）

上限= L + t * s/sqrt（n）

ここで、Lはサンプルの平均アンケートスコア、sはサンプルのアンケートスコアの標準偏差、nはサンプルのユーザー数です。 tはt統計で、TINV（）関数を使用してExcelから取得できます。

TINV（0.05、n-1）= 95％信頼区間のt

TINV（0.10、n-1）= 90％信頼区間のt

カットオフの選択

Likertスケール機器は、間隔スケール数値を生成します。カットオフを割り当てると、等間隔の値の範囲が2つのカテゴリに減少します。そのプロセスは、バックパックが「重すぎる」ときのカットオフを決定するように、本質的にグレーゾーンを介して線を引きます。それは40、50、または60ポンドですか？そして、「50ポンド」と言った場合、51は完全に正しく、49は完全に大丈夫ですか。それには恣意性の要素があり、単一の正しい答えに到達するためのアルゴリズムはありません。基本的には合理的な判断をすることになります。サイトは、基準や現在のデザインや競争よりどれほど優れている必要がありますか？何個のエラーまたはコンバージョンを撮影しますか？平均は十分ですか？または、本当に優れたものを狙って撮影したいですか？75パーセンタイルと言いますか？そこに行くためのリソースはありますか？

そして、あなたはカットオフを必要としないかもしれません。おそらく、上記のいずれかの方法を使用して、パーセンタイルなどの数値でそれを保持することで十分です。これらの数値を、サイトがどの程度優れているかを判断するために必要な他のメトリックに含めます。