numpy配列：nan値を列の平均で置き換えます

Question

私はほとんど実数で埋められたnumpy配列を持っていますが、それにいくつかのnan値もあります。

nansを列の平均値に置き換えるにはどうすればよいですか？

Daniel · Accepted Answer

ループは必要ありません：

print(a) [[ 0.93230948 nan 0.47773439 0.76998063] [ 0.94460779 0.87882456 0.79615838 0.56282885] [ 0.94272934 0.48615268 0.06196785 nan] [ 0.64940216 0.74414127 nan nan]] #Obtain mean of columns as you need, nanmean is just convenient. col_mean = np.nanmean(a, axis=0) print(col_mean) [ 0.86726219 0.7030395 0.44528687 0.66640474] #Find indicies that you need to replace inds = np.where(np.isnan(a)) #Place column means in the indices. Align the arrays using take a[inds] = np.take(col_mean, inds[1]) print(a) [[ 0.93230948 0.7030395 0.47773439 0.76998063] [ 0.94460779 0.87882456 0.79615838 0.56282885] [ 0.94272934 0.48615268 0.06196785 0.66640474] [ 0.64940216 0.74414127 0.44528687 0.66640474]]

Praveen · Answer

マスク配列の使用

Numpyのみを使用してこれを行う標準的な方法は、 masked array モジュールを使用することです。

Scipyは外部ライブラリに依存する非常に重いパッケージなので、numpyのみのメソッドを持つ価値があります。これは、@ DonaldHobsonの回答から引用しています。

編集： np.nanmean は、numpy関数になりました。ただし、すべてのnan列を処理しません...

配列aがあるとします：

>>> a array([[ 0., nan, 10., nan], [ 1., 6., nan, nan], [ 2., 7., 12., nan], [ 3., 8., nan, nan], [ nan, 9., 14., nan]]) >>> import numpy.ma as ma >>> np.where(np.isnan(a), ma.array(a, mask=np.isnan(a)).mean(axis=0), a) array([[ 0. , 7.5, 10. , 0. ], [ 1. , 6. , 12. , 0. ], [ 2. , 7. , 12. , 0. ], [ 3. , 8. , 12. , 0. ], [ 1.5, 9. , 14. , 0. ]])

マスクされた配列の平均はaと同じ形状である必要はないことに注意してください。これは、暗黙的な broadcasting を行で利用しているためです。

また、all-nan列が適切に処理されることに注意してください。ゼロ要素の平均を取るため、平均はゼロです。 nanmeanを使用するメソッドは、すべてのnan列を処理しません。

>>> col_mean = np.nanmean(a, axis=0) /home/praveen/.virtualenvs/numpy3-mkl/lib/python3.4/site-packages/numpy/lib/nanfunctions.py:675: RuntimeWarning: Mean of empty slice warnings.warn("Mean of empty slice", RuntimeWarning) >>> inds = np.where(np.isnan(a)) >>> a[inds] = np.take(col_mean, inds[1]) >>> a array([[ 0. , 7.5, 10. , nan], [ 1. , 6. , 12. , nan], [ 2. , 7. , 12. , nan], [ 3. , 8. , 12. , nan], [ 1.5, 9. , 14. , nan]])

説明

aをマスクされた配列に変換すると

>>> ma.array(a, mask=np.isnan(a)) masked_array(data = [[0.0 -- 10.0 --] [1.0 6.0 -- --] [2.0 7.0 12.0 --] [3.0 8.0 -- --] [-- 9.0 14.0 --]], mask = [[False True False True] [False False True True] [False False False True] [False False True True] [ True False False True]], fill_value = 1e+20)

そして、列の平均を取ると、correct答えが得られ、マスクされていない値でのみ正規化されます。

>>> ma.array(a, mask=np.isnan(a)).mean(axis=0) masked_array(data = [1.5 7.5 12.0 --], mask = [False False False True], fill_value = 1e+20)

さらに、マスクがall-nanである列をうまく処理することに注意してください！

最後に、 - np.where は置換の仕事をします。

行ごとの平均

nanの値を列ごとの平均ではなく行ごとの平均に置き換えるには、ブロードキャストがうまく機能するように少し変更する必要があります。

>>> a array([[ 0., 1., 2., 3., nan], [ nan, 6., 7., 8., 9.], [ 10., nan, 12., nan, 14.], [ nan, nan, nan, nan, nan]]) >>> np.where(np.isnan(a), ma.array(a, mask=np.isnan(a)).mean(axis=1), a) ValueError: operands could not be broadcast together with shapes (4,5) (4,) (4,5) >>> np.where(np.isnan(a), ma.array(a, mask=np.isnan(a)).mean(axis=1)[:, np.newaxis], a) array([[ 0. , 1. , 2. , 3. , 1.5], [ 7.5, 6. , 7. , 8. , 9. ], [ 10. , 12. , 12. , 12. , 14. ], [ 0. , 0. , 0. , 0. , 0. ]])

Ulf Aslak · Answer

代替：NaNを列の補間に置き換えます。

def interpolate_nans(X): """Overwrite NaNs with column value interpolations.""" for j in range(X.shape[1]): mask_j = np.isnan(X[:,j]) X[mask_j,j] = np.interp(np.flatnonzero(mask_j), np.flatnonzero(~mask_j), X[~mask_j,j]) return X

使用例：

X_incomplete = np.array([[10, 20, 30 ], [np.nan, 30, np.nan], [np.nan, np.nan, 50 ], [40, 50, np.nan ]]) X_complete = interpolate_nans(X_incomplete) print X_complete [[10, 20, 30 ], [20, 30, 40 ], [30, 40, 50 ], [40, 50, 50 ]]

特に、時系列データにこのコードを使用します。列は属性であり、行は時系列のサンプルです。

Donald Hobson · Answer

partialが元のデータであり、replaceが平均値を含む同じ形状の配列である場合、このコードは、存在する場合はpartialの値を使用します。

Complete= np.where(np.isnan(partial),replace,partial)

Hammer · Answer

これはあまりきれいではありませんが、反復する以外にそれを行う方法は考えられません

#example a = np.arange(16, dtype = float).reshape(4,4) a[2,2] = np.nan a[3,3] = np.nan indices = np.where(np.isnan(a)) #returns an array of rows and column indices for row, col in Zip(*indices): a[row,col] = np.mean(a[~np.isnan(a[:,col]), col])

LetsPlayYahtzee · Answer

ドナルドの答えを拡張するために、最小限の例を提供します。 aがndarrayであり、そのゼロ値を列の平均で置き換えたいとします。

In [231]: a Out[231]: array([[0, 3, 6], [2, 0, 0]]) In [232]: col_mean = np.nanmean(a, axis=0) Out[232]: array([ 1. , 1.5, 3. ]) In [228]: np.where(np.equal(a, 0), col_mean, a) Out[228]: array([[ 1. , 3. , 6. ], [ 2. , 1.5, 3. ]])

rnso · Answer

ループを使用した単純な関数の使用：

a=[[0.93230948, np.nan, 0.47773439, 0.76998063], [0.94460779, 0.87882456, 0.79615838, 0.56282885], [0.94272934, 0.48615268, 0.06196785, np.nan], [0.64940216, 0.74414127, np.nan, np.nan], [0.64940216, 0.74414127, np.nan, np.nan]] print("------- original array -----") for aa in a: print(aa) # GET COLUMN MEANS: ta = np.array(a).T.tolist() # transpose the array; col_means = list(map(lambda x: np.nanmean(x), ta)) # get means; print("column means:", col_means) # REPLACE NAN ENTRIES WITH COLUMN MEANS: nrows = len(a); ncols = len(a[0]) # get number of rows & columns; for r in range(nrows): for c in range(ncols): if np.isnan(a[r][c]): a[r][c] = col_means[c] print("------- means added -----") for aa in a: print(aa)

出力：

------- original array ----- [0.93230948, nan, 0.47773439, 0.76998063] [0.94460779, 0.87882456, 0.79615838, 0.56282885] [0.94272934, 0.48615268, 0.06196785, nan] [0.64940216, 0.74414127, nan, nan] [0.64940216, 0.74414127, nan, nan] column means: [0.82369018599999999, 0.71331494500000003, 0.44528687333333333, 0.66640474000000005] ------- means added ----- [0.93230948, 0.71331494500000003, 0.47773439, 0.76998063] [0.94460779, 0.87882456, 0.79615838, 0.56282885] [0.94272934, 0.48615268, 0.06196785, 0.66640474000000005] [0.64940216, 0.74414127, 0.44528687333333333, 0.66640474000000005] [0.64940216, 0.74414127, 0.44528687333333333, 0.66640474000000005]

Forループはリスト内包表記でも書けます：

new_a = [[col_means[c] if np.isnan(a[r][c]) else a[r][c] for c in range(ncols) ] for r in range(nrows) ]