web-dev-qa-db-ja.com

データマイニングでは、クラスラベルとは何ですか。例を挙げてください

意味がわかりません。データベースでは、タプルはフィールド値を意味し、属性はテーブルフィールドを意味しますか?私は正しいですか?データマイニングのクラスラベルとは何ですか?

7
Akhil T Mohan

非常に短い答え:クラスラベルは、他の属性の値に基づいて値を予測する個別の属性です。 (残りの答えを読んでください。)

クラスラベルという用語は、通常、教師あり機械学習のコンテキストで使用され、特に分類では、フォームの例のセットが与えられます。 _(attribute values, classLabel)_そして目標は、属性値からラベルを計算するルールを学習することです。クラスラベルは常に有限(無限ではなく)数の異なる値を取ります。

具体的な例として、成人のセットが与えられ、彼らがホームレスであるかどうかを予測したいと思います。属性が達成された最高の教育レベルであり、起源であると仮定します(例は_(Origin, educationalLevel; isHomeless)_からのものです:

_(Manhattan, PhD; no)
(Brooklyn, Primary school; yes)
...
_

この特定のケースでは、isHomelessがクラスラベルです。目標は、特定の属性値を持つ人がホームレスであるかどうかを計算する関数を学習することです。 (より具体的には、ミスの数の特定の定量化の下で、ミスをできるだけ少なくする関数を学習すること。)

ウィキペディアの記事 教師あり学習 は良い説明を提供します。

他の質問に関して:いいえ、タプルは特定の行の属性の値のセット全体を意味します。たとえば、テーブルTable person(id, name, surname)がある場合、最初の行を表すタプルは_(0, 'Akhil', 'Mohan')_になります。

23
blazs

基本的に、(分類の)クラスラベルは(回帰の)応答変数と比較できます。これは、他の(独立した)変数に関して予測したい値です。

違いは、クラスラベルは通常、離散/カテゴリ変数(たとえば、-はい-いいえ、0-1など)であるのに対し、応答変数は通常、連続/実数変数であるということです。

応答変数とクラスラベルに関連する回帰と分類の詳細については、 https://math.stackexchange.com/questions/141381/regression-vs-classification を参照してください。

2

電子メールスパムフィルターの例を見てみましょう。これは、電子メールがスパムであるかどうかを分類します。このため、スパム(クラス1)とスパム(クラス2)ではない2つのクラスを定義します。これらは両方ともクラスラベルであるか、電子メールに特定の属性がある場合、それはスパムクラスに属しているか、スパムクラスではないと言うことができます

0
Shashwat Pandey