web-dev-qa-db-ja.com

scikit-learnでのマルチラベル予測の精度の取得

マルチラベル分類 設定では、 sklearn.metrics.accuracy_scoreサブセットの精度(3)のみを計算します。つまり、サンプルに対して予測されたラベルのセットは、の対応するラベルのセットと正確に一致する必要があります。 y_true。

精度を計算するこの方法は、完全一致率(1)と呼ばれることもあります。

enter image description here

Scikit-learnの精度を計算する他の典型的な方法を取得する方法はありますか?

enter image description here

((1)と(2)で定義されており、ハミングスコア(4)とあまり明確に呼ばれていません(ハミング損失)、またはラベルベースの精度)?


(1)Sorower、Mohammad S. " マルチラベル学習のアルゴリズムに関する文献調査。 "オレゴン州立大学、コーバリス(2010)。

(2)Tsoumakas、Grigorios、およびIoannisKatakis。 " マルチラベル分類:概要。 "ギリシャ、テッサロニキのアリストテレス大学情報学部(2006)。

(3)Ghamrawi、Nadia、およびAndrewMcCallum。 " 集合的なマルチラベル分類。 "情報と知識の管理に関する第14回ACM国際会議の議事録。 ACM、2005年。

(4)ゴッドボール、シャンタヌ、スニタサラワギ。 " マルチラベル分類の識別方法。 "知識発見とデータマイニングの進歩。シュプリンガーベルリンハイデルベルク、2004年。22-30。

15

自分で1つのバージョンを作成できます。これは、重みを考慮せずに正規化した例です。

import numpy as np

y_true = np.array([[0,1,0],
                   [0,1,1],
                   [1,0,1],
                   [0,0,1]])

y_pred = np.array([[0,1,1],
                   [0,1,1],
                   [0,1,0],
                   [0,0,0]])

def hamming_score(y_true, y_pred, normalize=True, sample_weight=None):
    '''
    Compute the Hamming score (a.k.a. label-based accuracy) for the multi-label case
    http://stackoverflow.com/q/32239577/395857
    '''
    acc_list = []
    for i in range(y_true.shape[0]):
        set_true = set( np.where(y_true[i])[0] )
        set_pred = set( np.where(y_pred[i])[0] )
        #print('\nset_true: {0}'.format(set_true))
        #print('set_pred: {0}'.format(set_pred))
        tmp_a = None
        if len(set_true) == 0 and len(set_pred) == 0:
            tmp_a = 1
        else:
            tmp_a = len(set_true.intersection(set_pred))/\
                    float( len(set_true.union(set_pred)) )
        #print('tmp_a: {0}'.format(tmp_a))
        acc_list.append(tmp_a)
    return np.mean(acc_list)

if __name__ == "__main__":
    print('Hamming score: {0}'.format(hamming_score(y_true, y_pred))) # 0.375 (= (0.5+1+0+0)/4)

    # For comparison sake:
    import sklearn.metrics

    # Subset accuracy
    # 0.25 (= 0+1+0+0 / 4) --> 1 if the prediction for one sample fully matches the gold. 0 otherwise.
    print('Subset accuracy: {0}'.format(sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)))

    # Hamming loss (smaller is better)
    # $$ \text{HammingLoss}(x_i, y_i) = \frac{1}{|D|} \sum_{i=1}^{|D|} \frac{xor(x_i, y_i)}{|L|}, $$
    # where
    #  - \\(|D|\\) is the number of samples  
    #  - \\(|L|\\) is the number of labels  
    #  - \\(y_i\\) is the ground truth  
    #  - \\(x_i\\)  is the prediction.  
    # 0.416666666667 (= (1+0+3+1) / (3*4) )
    print('Hamming loss: {0}'.format(sklearn.metrics.hamming_loss(y_true, y_pred))) 

出力:

Hamming score: 0.375
Subset accuracy: 0.25
Hamming loss: 0.416666666667
17
William

2019年に読んでいる人は、 sklearn.metrics.hamming_loss

>>> import numpy as np
>>> hamming_loss(np.array([[0, 1], [1, 1]]), np.zeros((2, 2)))
0.75

Numpyで計算するのもかなり簡単です:

# Exact Match ratio:
np.all(y_pred == y_true, axis=1).mean()

# Hamming Score:
(y_pred == y_true).mean()
3
Polor Beer