すべての列間のペアワイズ相関を計算する

Question

私は大規模な生物学的データセットを扱っています。

データテーブル内のすべての2列の組み合わせのPCC（ピアソンの相関係数）を計算し、その結果をDataFrameまたはCSVファイルとして保存したいと思います。

データテーブルは次のようになります。列は遺伝子の名前、行はデータセットのコードです。フロート数は、データセット内で遺伝子がどれだけ活性化されているかを意味します。

 GeneA GeneB GeneC ... DataA 1.5 2.5 3.5 ... DataB 5.5 6.5 7.5 ... DataC 8.5 8.5 8.5 ... ...

出力として、scipy.stats.pearsonr関数が（PCC、p値）を返すため、以下のようにテーブル（DataFrameまたはcsvファイル）を作成します。私の例では、XXとYYは、ピアソン（[1.5、5.5、8.5]、[2.5、6.5、8.5]）の結果を意味します。同様に、ZZとAAは、ピアソン（[1.5、5.5、8.5]、[3.5、7.5、8.5]）の結果を意味します。テストでは、GeneB_GeneAやGeneC_GeneBなどの冗長データは必要ありません。

 PCC P-value GeneA_GeneB XX YY GeneA_GeneC ZZ AA GeneB_GeneC BB CC ...

列と行の数が多く（100を超える）、それらの名前が複雑であるため、列名または行名を使用することは困難です。

専門家にとっては単純な問題かもしれません。この種のテーブルをpythonおよびpandasライブラリで処理する方法がわかりません。特に新しいDataFrameと結果を追加するのは非常に難しいようです。

説明が不十分で申し訳ありませんが、誰かが私を助けてくれることを願っています。

Stefan · Accepted Answer

_from pandas import * import numpy as np from libraries.settings import * from scipy.stats.stats import pearsonr import itertools _

ランダムサンプルデータの作成：

_df = DataFrame(np.random.random((5, 5)), columns=['gene_' + chr(i + ord('a')) for i in range(5)]) print(df) gene_a gene_b gene_c gene_d gene_e 0 0.471257 0.854139 0.781204 0.678567 0.697993 1 0.292909 0.046159 0.250902 0.064004 0.307537 2 0.422265 0.646988 0.084983 0.822375 0.713397 3 0.113963 0.016122 0.227566 0.206324 0.792048 4 0.357331 0.980479 0.157124 0.560889 0.973161 correlations = {} columns = df.columns.tolist() for col_a, col_b in itertools.combinations(columns, 2): correlations[col_a + '__' + col_b] = pearsonr(df.loc[:, col_a], df.loc[:, col_b]) result = DataFrame.from_dict(correlations, orient='index') result.columns = ['PCC', 'p-value'] print(result.sort_index()) PCC p-value gene_a__gene_b 0.461357 0.434142 gene_a__gene_c 0.177936 0.774646 gene_a__gene_d -0.854884 0.064896 gene_a__gene_e -0.155440 0.802887 gene_b__gene_c -0.575056 0.310455 gene_b__gene_d -0.097054 0.876621 gene_b__gene_e 0.061175 0.922159 gene_c__gene_d -0.633302 0.251381 gene_c__gene_e -0.771120 0.126836 gene_d__gene_e 0.531805 0.356315 _

itertools.combination(iterable, r)を使用してDataFrame列の一意の組み合わせを取得します
これらの組み合わせを繰り返し、_scipy.stats.stats.personr_を使用してペアワイズ相関を計算します
結果（PCCおよびp値タプル）をdictionaryに追加します
DataFrameからdictionaryをビルドします

次に、result.to_csv()を保存することもできます。ペアワイズ相関用に作成された名前の代わりに、MultiIndex（各列の名前を含む2つの列）を使用すると便利な場合があります。

chenzhongpu · Answer

ペアを取得するには、それはcombinationsの問題です。すべての行を1つの結果concatにdataframeすることができます。

from pandas import * from itertools import combinations df = pandas.read_csv('gene.csv') # get the column names as list, which are gene names column_list = df.columns.values.tolist() result = [] for c in combinations(column_list, 2): firstGene, secondGene = c firstGeneData = df[firstGene].tolist() secondGeneData = df[secondGene].tolist() # now to get the PCC, P-value using scipy pcc = ... p-value = ... result.append(pandas.DataFrame([{'PCC': pcc, 'P-value': p-value}], index=str(firstGene)+ '_' + str(secondGene), columns=['PCC', 'P-value']) result_df = pandas.concat(result) #result_df.to_csv(...)

Raphael · Answer

簡単な解決策は、 Pingouinパッケージ（私が作成した）の pairwise_corr 関数を使用することです。

import pingouin as pg pg.pairwise_corr(data, method='pearson')

これにより、列のすべての組み合わせを含むDataFrameが得られ、それぞれについて、r値、p値、サンプルサイズなどが得られます。

1つ以上の列を指定するためのいくつかのオプション（例：one-vs-allの動作）、および部分相関と異なる共変量もあります相関係数を計算する方法。より詳細なデモについては、この例のJupyter Notebook を参照してください。