pandasデータフレームを使用したrpy2回帰の最小限の例

Question

pandasデータフレームを使用して線形回帰を実行するための推奨される方法（ある場合）は何ですか？実行できますが、私の方法は非常に複雑に見えます。不必要に複雑にしていますか？

比較のためのRコード：

_x <- c(1,2,3,4,5) y <- c(2,1,3,5,4) M <- lm(y~x) summary(M)$coefficients Estimate Std. Error t value Pr(>|t|) (Intercept) 0.6 1.1489125 0.522233 0.6376181 x 0.8 0.3464102 2.309401 0.1040880 _

さて、私のpython（2.7.10）、rpy2（2.6.0）、およびpandas（0.16.1）バージョン：

_import pandas import pandas.rpy.common as common from rpy2 import robjects from rpy2.robjects.packages import importr base = importr('base') stats = importr('stats') dataframe = pandas.DataFrame({'x': [1,2,3,4,5], 'y': [2,1,3,5,4]}) robjects.globalenv['dataframe']\ = common.convert_to_r_dataframe(dataframe) M = stats.lm('y~x', data=base.as_symbol('dataframe')) print(base.summary(M).rx2('coefficients')) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.6 1.1489125 0.522233 0.6376181 x 0.8 0.3464102 2.309401 0.1040880 _

ちなみに、_pandas.rpy.common_のインポートでFutureWarningを取得します。ただし、pandas2ri.py2ri(dataframe)を使用してデータフレームをpandasからRに変換しようとすると（前述のとおりここ）、次のようになります。

_NotImplementedError: Conversion 'py2ri' not defined for objects of type '<class 'pandas.core.series.Series'>' _

lgautier · Accepted Answer

RとPythonは、Python/rpy2でデータフレームを構築するのに対し、Rではベクトル（データフレームなし）を使用するため、厳密には同一ではありません。

それ以外の場合、rpy2を使用したコンバージョン配送はここで機能しているように見えます。

from rpy2.robjects import pandas2ri pandas2ri.activate() robjects.globalenv['dataframe'] = dataframe M = stats.lm('y~x', data=base.as_symbol('dataframe'))

結果：

>>> print(base.summary(M).rx2('coefficients')) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.6 1.1489125 0.522233 0.6376181 x 0.8 0.3464102 2.309401 0.1040880

unutbu · Answer

pandas2ri.activate()を呼び出した後、PandasオブジェクトからRオブジェクトへの変換が自動的に行われます。たとえば、次を使用できます。

M = R.lm('y~x', data=df)

の代わりに

robjects.globalenv['dataframe'] = dataframe M = stats.lm('y~x', data=base.as_symbol('dataframe'))

import pandas as pd from rpy2 import robjects as ro from rpy2.robjects import pandas2ri pandas2ri.activate() R = ro.r df = pd.DataFrame({'x': [1,2,3,4,5], 'y': [2,1,3,5,4]}) M = R.lm('y~x', data=df) print(R.summary(M).rx2('coefficients'))

収量

 Estimate Std. Error t value Pr(>|t|) (Intercept) 0.6 1.1489125 0.522233 0.6376181 x 0.8 0.3464102 2.309401 0.1040880

LondonRob · Answer

p-値を含む係数テーブルの特定の要素を取得する方法を概説することで、 nutbuの答えに追加できます。

def r_matrix_to_data_frame(r_matrix): """Convert an R matrix into a Pandas DataFrame""" import pandas as pd from rpy2.robjects import pandas2ri array = pandas2ri.ri2py(r_matrix) return pd.DataFrame(array, index=r_matrix.names[0], columns=r_matrix.names[1]) # Let's start from unutbu's line retrieving the coefficients: coeffs = R.summary(M).rx2('coefficients') df = r_matrix_to_data_frame(coeffs)

これにより、通常の方法でアクセスできるDataFrameが残ります。

In [179]: df['Pr(>|t|)'] Out[179]: (Intercept) 0.637618 x 0.104088 Name: Pr(>|t|), dtype: float64 In [181]: df.loc['x', 'Pr(>|t|)'] Out[181]: 0.10408803866182779