異なるデザインのアイデアを比較するためのテストを行う際のベストプラクティスは何ですか？

Question

（B2B）アプリには、多くの混乱を引き起こしているように見える特定の機能があります。（URLのリストが含まれ、その一部は非常に長くなる可能性があり、さまざまなステータスをさまざまなステータスに与えます。バックエンドには、多数のブール演算が含まれていますが、ユーザーからそれを隠そうとしています。）

混乱の一部は、ドメインが複雑であるということです。物事を明確にするために4つのデザインを用意しました。それらをテストしたいと思います。テストを管理しやすい状態に保つ方法に関するアドバイスはありますか？いくつかの課題：

あらゆる種類の自動A/Bテストを実行するのに十分なユーザーがいない
それはやや複雑な概念モデルであり、理解するにはおそらく少なくとも少しの専門知識が必要です
上記にもかかわらず、私たちのユーザーは必ずしも非常に技術的ではありません

Alan James Salmoni · Accepted Answer

被験者内設計を使用して、制御された（ラボ）テストを実行できます。このため、各参加者は各条件（設計）にさらされます。順序の影響がある可能性があります（つまり、進行するにつれて学習します）。そのため、参加者が各デザインを処理する順序を相殺します（したがって、参加者1はデザイン1、2、3、4を取得し、参加者2は2、3、4、1を取得します。 ;参加者3はデザイン3、4、1、2などを取得します）。これにより、順序の影響を防ぐことができます。

難しいのは、測定したいものをうまく処理することです。それはソフトウェアが達成することになっている目標に依存します。

Sam K · Answer

Silverback のようなものを使用することをお勧めします（Macを持っているかどうかはわかりませんが、これは私が考えていることを実行するアプリの単なる例です）。 -be-end-usersは、さまざまな設計内の特定のタスクを実行し、それらがどのように機能するかを確認します。

ドメイン内で必要な手順を実行できるかどうかを確認できます。トラブルスポットの場所を確認でき、それに基づいてデザインを調整できます。さらに、実際にユーザーに報告するように依頼するだけではありません。彼らは彼らの問題を正確に報告しないかもしれません、またはあなたが彼らが実際に動くのを見ることによって得ることができるのと同じ詳細でそれらを明確にすることができないかもしれません。

私は過去に表面的なゲリラテストを行っただけですが、それは単純なアイデアであり、リソースが限られている場合にうまく機能するようです。