ウェブ評価システムの有効性に関する優れた調査研究はありますか？

Question

私は、ユーザーがお互いのコンテンツ（特定の種類の画像）をアップロードおよび投票できるWebサイトを作成する予定であり、簡単な評価システムを導入したいと考えています。

私はユーザーを気にせず、ユーザーの評価習慣を調べることはしません。「良い」コンテンツが上に浮かび、「悪い」コンテンツが下に浮かぶようにするだけです。

使用する評価システムの種類を決定しようとしていました。

StackExchangeまたはYoutubeのようなバイナリのアップ/ダウン投票システム。
Netflixのような5つ星またはnつ星の評価システム、またはYouTubeの以前の評価システム。
DiggまたはFacebookのようなアップ投票専用（「好き」だが「嫌い」ではない）システム。

5ポイントの評価尺度に関する私の懸念は、一部のユーザーが「極端な」投票者になる傾向があり、5と1をすべて投票することです。しかし、単項の評価システムでは、すべてのユーザーがすべてに「はい」と投票するわけではありません。

これは非常に主観的な質問であることを知っているので、たぶん質問すべきではありません。これらの選択の長所と短所について、思慮深く有益な比較を読むことに興味があります。

私は見つけました 1つの記事これは5ポイントの評価システムをあまり割引かないので割引きます-平均の重みはあまりにも高くて有用ではありません：

残念ながら、サイトは5ポイントスケールの結果は意味がないことを発見しました。幅広いアプリケーションで、大多数の人がオブジェクトを「5」と評価しました。多くのタイプのサイトの平均評価は4.5以上です。

L&#232;se majest&#233; · Accepted Answer

「有効性」を定義します。「効果的」とは、コミュニティのコンセンサスを獲得するのに効果的という意味であれば、すべて効果的です。「有効性」とは、返されるデータの豊富さを意味する場合、バイナリシステムを使用するよりもポイントスケールを使用する方が「効果的」になります。「有効性」によって、協調フィルタリングシステムの実装が容易であることを意味する場合は、バイナリシステムが望ましいです。

この質問は曖昧すぎます。また、探している評価（データ）の種類と評価対象によっても異なります。それぞれに場所があります。

あなたが引用した記事は、重みが不十分なポイントスケールシステムに関するものです。映画を評価するほとんどの人が映画/ジャンルのファンになる傾向があるからといって、システムが役に立たないというわけではありません。つまり、評価システムを適切にスケーリング/調整する必要があります。すべての映画の評価の中央値が2.5ではなく3.5である場合、評価システムを調整して、2.5スターが実際に3.5平均になるようにする必要があります。同様に、標準偏差を考慮し、星評価を適切にスケーリングする必要があります。これらの両方を行う場合、5つ星評価システムの精度は非常に現実的で非常に価値があります。

ポイントスケールシステムのもう1つの利点は、単なるコミュニティコンセンサスではないことです。実際に、個人が映画をどれだけ好きか嫌いか、さまざまな人口統計の評価分布を確認できます。単純なバイナリシステムでは、そのすべてが失われます。この映画が好きな女の子のX％だけであり、好きな程度ではないことを知っています。そして、映画をあまり好きではない/嫌いな人は、おそらくそのような限られた選択肢で投票しないので、それでも正確ではないかもしれません。

単項システムでは、データ品質はさらに悪くなります。あまり知られていないため投票数が非常に少ない映画と、誰もが嫌いだから投票数が非常に少ない映画との違いはありません。視聴者の50％に愛されている映画は、視聴者の100％に愛されている映画とまったく同じ評価を持つことができ、それらを区別する方法はありません。

OTOH、ポイントスケールシステムでしかできないあらゆる種類のクールなことがあります。たとえば、標準偏差をはるかに超える票を捨てたり、一貫して極端に投票するユーザーの票を希釈したりします。より詳細な個々の投票データに基づいて、より良い推奨事項を作成することもできます。例えば。ユーザーが投票するアイテムに基づいてユーザーをグループ化するだけでなく、映画に与える相対的な評価：Boondock Saintsに5/10、Basketball Diariesに9/10を与えるユーザーは、ユーザーとは趣味が大きく異なります。 Boondock Saintsに9/10、Basketball Diaries 5/10を提供します。

個人が写真を好き/嫌いの度合いを確認できるようにしたいですか、それとも共同フィルタリング用のデータのみを収集したいですか？アイテムは、ユーザーが5ポイントスケールで適切に評価しようとするほど十分な定性的なニュアンスと多様性で評価されていますか（例：映画とYouTubeビデオ）。単項システムであっても、ユーザーの参加を最大化することが主な目的である場合や、単に人気を測定する（例：投票する）場合に役立ちます。

補足として、別の選択肢は、ユーザーに2つのアイテムを同時に表示し、好みのアイテムを選択する相対評価システムです。この方法でアイテムをランク付けするには、多少複雑な数学が必要ですが、ポイントシステムのデータ品質とともに、通常のバイナリシステムの単純さ（ユーザーにとって）を提供します。

最後に、投票の心理を説明し、特定の行動を奨励/阻止するために、投票/評価システムに対して行うことができるあらゆる種類の調整があります。たとえば、調査では、投票が「維持」であるか重要でないかによって、ユーザーの投票方法が大きく異なることが示されています。同様に、投票数が限られている場合（獲得する必要がある場合）、より賢明に投票します。また、ユーザーが嫌いなアイテムにまったく投票しない傾向を補うために、ユーザーに強制的に反対票と同じ数の賛成票を投じることができます。同様に、映画に5つの星を与えると5つの投票ポイントがかかる場合、ユーザーからの偏りの少ない評価パターンが表示される可能性があります。また、投票が放送された場合（Facebookなど）、ユーザーはより熱心に投票しますか？