web-dev-qa-db-ja.com

Seaborn distploty軸の正規化の間違ったティックラベル

念のために言っておきますが、私はすでに この質問この質問 をチェックしました。

したがって、私はdistplotを使用して、別々のサブプロットにいくつかのヒストグラムを描画しています。

import numpy as np
#import netCDF4 as nc # used to get p0_dict
import matplotlib.pyplot as plt
from collections import OrderedDict
import seaborn.apionly as sns
import cPickle as pickle

''' 
LINK TO PICKLE
https://drive.google.com/file/d/0B8Xks3meeDq0aTFYcTZEZGFFVk0/view?usp=sharing
'''

p0_dict = pickle.load(open('/path/to/pickle/test.dat', 'r'))     

fig = plt.figure(figsize = (15,10))
ax = plt.gca()
j=1

for region, val in p0_dict.iteritems():

    val = np.asarray(val)

    subax = plt.subplot(5,5,j)

    print region

    try:              
        sns.distplot(val, bins=11, hist=True, kde=True, rug=True, 
                     ax = subax, color = 'k', norm_hist=True)

    except Exception as Ex:
        print Ex

    subax.set_title(region)
    subax.set_xlim(0, 1) # the data varies from 0 to 1

    j+=1    

plt.subplots_adjust(left = 0.06, right = 0.99, bottom = 0.07,
                    top = 0.92, wspace = 0.14, hspace = 0.6) 

fig.text(0.5, 0.02, r'$ P(W) = 0,1 $', ha ='center', fontsize = 15)
fig.text(0.02, 0.5, '% occurrence', ha ='center', 
         rotation='vertical', fontsize = 15) 
# obviously I'd multiply the fractional ticklabels by 100 to get 
# the percentage...

plt.show()

私が期待しているのは、KDE曲線の下の領域の合計が1になり、y軸の目盛りラベルがこれを反映することです。ただし、次のようになります。

enter image description here

ご覧のとおり、予想どおり、y軸の目盛りラベルは[0,1]の範囲にありません。オン/オフにするnorm_histまたはkdeはこれを変更しません。参考までに、両方をオフにした出力:

enter image description here

確認するだけです:

aus = np.asarray(p0_dict['AUS'])
aus_bins = np.histogram(aus, bins=11)[0]

plt.subplot(121)
plt.hist(aus,11)
plt.subplot(122)
plt.bar(range(0,11),aus_bins.astype(np.float)/np.sum(aus_bins))

plt.show()

enter image description here

この場合のy目盛りは、正規化されたヒストグラムの目盛りを適切に反映しています。

私は何が間違っているのですか?

ご協力ありがとうございました。

11
areuexperienced

Y軸は密度であり、確率ではありません。正規化されたヒストグラムが確率質量関数を示すことを期待していると思います。ここで、バーの高さの合計は1に等しくなります。しかし、それは間違っています。正規化により、バーの高さの合計バーの幅の倍が1に等しくなります。これにより、正規化されたヒストグラムが、曲線の下の領域が正規化されるように正規化されたカーネル密度推定に匹敵することが保証されます。 1に等しい。

22
mwaskom