web-dev-qa-db-ja.com

高い値のコレクションビンを含むMatplotlibヒストグラム

値を持つ配列があり、そのヒストグラムを作成します。私は主にローエンドの数値に関心があり、300を超えるすべての数値を1つのビンに収集したいと考えています。このビンは、他のすべての(等しい幅の)ビンと同じ幅にする必要があります。これどうやってするの?

注:この質問はこの質問に関連しています: Matplotlibヒストグラムでのビンの幅/ x軸のスケールの定義

これは私がこれまでに試したことです:

import matplotlib.pyplot as plt
import numpy as np

def plot_histogram_01():
    np.random.seed(1)
    values_A = np.random.choice(np.arange(600), size=200, replace=True).tolist()
    values_B = np.random.choice(np.arange(600), size=200, replace=True).tolist()

    bins = [0, 25, 50, 75, 100, 125, 150, 175, 200, 225, 250, 275, 300, 600]

    fig, ax = plt.subplots(figsize=(9, 5))
    _, bins, patches = plt.hist([values_A, values_B], normed=1,  # normed is deprecated and will be replaced by density
                                bins=bins,
                                color=['#3782CC', '#AFD5FA'],
                                label=['A', 'B'])

    xlabels = np.array(bins[1:], dtype='|S4')
    xlabels[-1] = '300+'

    N_labels = len(xlabels)
    plt.xlim([0, 600])
    plt.xticks(25 * np.arange(N_labels) + 12.5)
    ax.set_xticklabels(xlabels)

    plt.yticks([])
    plt.title('')
    plt.setp(patches, linewidth=0)
    plt.legend()

    fig.tight_layout()
    plt.savefig('my_plot_01.png')
    plt.close()

これは、見栄えの悪い結果です。 enter image description here

次に、xlimを含む行を変更しました。

plt.xlim([0, 325])

次の結果になります。 enter image description here

見た目は多かれ少なかれ見えますが、最後のビンは見えません。幅25のこの最後のビンを視覚化するために、どのトリックが欠けていますか?

23

Numpyには、これを処理するための便利な関数 np.clip があります。名前はどのように聞こえるかもしれませんが、値はremoveではなく、指定した範囲に制限するだけです。基本的には、Artemの「ダーティーハック」をインラインで実行します。値をそのままにすることができますが、hist呼び出しでは、配列をnp.clip呼び出しでラップするだけです。

plt.hist(np.clip(values_A, bins[0], bins[-1]), bins=bins)

これはいくつかの理由でより良いです:

  1. それはwayより高速です—少なくとも要素の数が多い場合。 NumpyはCレベルで機能します。 pythonリスト(Artemのリスト内包表記のように)を操作すると、要素ごとに多くのオーバーヘッドが発生します。基本的に、numpyを使用するオプションがある場合は、そうする必要があります。

  2. 必要な場所で正しく実行できるため、コードでミスをする可能性が低くなります。

  3. 配列の2番目のコピーをぶらさげておく必要はありません。これにより、メモリ使用量が減り(この1行内を除く)、さらに間違いをする可能性が減ります。

  4. 値をハードコーディングする代わりにbins[0], bins[-1]を使用すると、binsが定義された場所でビンを変更できるため、間違いを犯す可能性が低くなります。 clipへの呼び出しやその他の場所でこれらを変更することを覚えておく必要はありません。

OPのようにまとめると、次のようになります。

import matplotlib.pyplot as plt
import numpy as np

def plot_histogram_01():
    np.random.seed(1)
    values_A = np.random.choice(np.arange(600), size=200, replace=True)
    values_B = np.random.choice(np.arange(600), size=200, replace=True)

    bins = np.arange(0,350,25)

    fig, ax = plt.subplots(figsize=(9, 5))
    _, bins, patches = plt.hist([np.clip(values_A, bins[0], bins[-1]),
                                 np.clip(values_B, bins[0], bins[-1])],
                                # normed=1,  # normed is deprecated; replace with density
                                density=True,
                                bins=bins, color=['#3782CC', '#AFD5FA'], label=['A', 'B'])

    xlabels = bins[1:].astype(str)
    xlabels[-1] += '+'

    N_labels = len(xlabels)
    plt.xlim([0, 325])
    plt.xticks(25 * np.arange(N_labels) + 12.5)
    ax.set_xticklabels(xlabels)

    plt.yticks([])
    plt.title('')
    plt.setp(patches, linewidth=0)
    plt.legend(loc='upper left')

    fig.tight_layout()
plot_histogram_01()

result of code above

32
Mike

申し訳ありませんが、matplotlibには詳しくありません。だから私はあなたのための汚いハックを持っています。 300を超えるすべての値を1つのビンに入れて、ビンのサイズを変更しました。

問題の原因は、matplotlibがすべてのビンをプロットに配置しようとすることです。 Rでは、ビンを因子変数に変換するため、実数として扱われません。

import matplotlib.pyplot as plt
import numpy as np

def plot_histogram_01():
    np.random.seed(1)
    values_A = np.random.choice(np.arange(600), size=200, replace=True).tolist()
    values_B = np.random.choice(np.arange(600), size=200, replace=True).tolist()
    values_A_to_plot = [301 if i > 300 else i for i in values_A]
    values_B_to_plot = [301 if i > 300 else i for i in values_B]

    bins = [0, 25, 50, 75, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325]

    fig, ax = plt.subplots(figsize=(9, 5))
    _, bins, patches = plt.hist([values_A_to_plot, values_B_to_plot], normed=1,  # normed is deprecated and will be replaced by density
                                bins=bins,
                                color=['#3782CC', '#AFD5FA'],
                                label=['A', 'B'])

    xlabels = np.array(bins[1:], dtype='|S4')
    xlabels[-1] = '300+'

    N_labels = len(xlabels)

    plt.xticks(25 * np.arange(N_labels) + 12.5)
    ax.set_xticklabels(xlabels)

    plt.yticks([])
    plt.title('')
    plt.setp(patches, linewidth=0)
    plt.legend()

    fig.tight_layout()
    plt.savefig('my_plot_01.png')
    plt.close()

plot_histogram_01()

enter image description here

5
Artem Fedosov