web-dev-qa-db-ja.com

ddplyエラーメッセージを理解する

Ddplyを使用するとエラーメッセージが表示される理由を理解しようとしています。

データ例:

data<-data.frame(area=rep(c("VA","OC","ES"),each=4),
    sex=rep(c("Male","Female"),each=2,times=3),
    year=rep(c(2009,2010),times=6),
    bin=c(110,120,125,125,110,130,125,80,90,90,80,140),
    Shell_length=c(.4,4,1,2,.2,5,.4,4,.8,4,.3,4))

bin7<-ddply(data, .(area,year,sex,bin), summarize,n_bin=length(Shell_length))

エラーメッセージ:.fun(piece、...)のエラー:引数 "by"がありません、デフォルトはありません

昨日このエラーメッセージが表示されました。 Rを再起動してコードを再実行したところ、すべて問題ありませんでした。今朝、エラーメッセージが再び表示されましたが、Rを再起動しても問題は解決しませんでした。

また、いくつかの例を実行しようとしました code そして同じエラーメッセージが表示されました。

  # Summarize a dataset by two variables
require(plyr)
dfx <- data.frame(
  group = c(rep('A', 8), rep('B', 15), rep('C', 6)),
  sex = sample(c("M", "F"), size = 29, replace = TRUE),
  age = runif(n = 29, min = 18, max = 54)
)

# Note the use of the '.' function to allow
# group and sex to be used without quoting
ddply(dfx, .(group, sex), summarize,
 mean = round(mean(age), 2),
 sd = round(sd(age), 2))

R情報

R version 3.2.1 (2015-06-18)
Platform: i386-w64-mingw32/i386 (32-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

locale:
[1] LC_COLLATE=English_United States.1252 
[2] LC_CTYPE=English_United States.1252   
[3] LC_MONETARY=English_United States.1252
[4] LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] grid      stats     graphics  grDevices utils     datasets 
[7] methods   base     

other attached packages:
 [1] Hmisc_3.17-0        ggplot2_1.0.1       Formula_1.2-1      
 [4] survival_2.38-1     car_2.0-26          MASS_7.3-40        
 [7] xlsx_0.5.7          xlsxjars_0.6.1      rJava_0.9-7        
[10] plyr_1.8.3          latticeExtra_0.6-26 RColorBrewer_1.1-2 
[13] lattice_0.20-31  

なぜこれが起こっているのか誰かが説明してくれれば幸いです。

ありがとう

10
user41509

質問に対するNarendraのコメントで述べられているように、このエラーは、summarize(またはsummarise)と呼ばれる関数がplyr。例えば:

library(plyr)
library(Hmisc)

ddply(iris, "Species", summarize, mean_sepal_length = mean(Sepal.Length))
#> Error in .fun(piece, ...) : argument "by" is missing, with no default

1つの解決策は、::と正しい名前空間を使用して正しい関数を呼び出すことです。

ddply(iris, "Species", plyr::summarize, mean_sepal_length = mean(Sepal.Length))
#> Species mean_sepal_length
#> 1     setosa             5.006
#> 2 versicolor             5.936
#> 3  virginica             6.588

または、間違った機能を持つパッケージをデタッチすることもできます。

detach(package:Hmisc)
ddply(iris, "Species", summarize, mean_sepal_length = mean(Sepal.Length))
#> Species mean_sepal_length
#> 1     setosa             5.006
#> 2 versicolor             5.936
#> 3  virginica             6.588

最後に、両方のパッケージが必要で、::を気にしたくない場合は、次の順序でロードできます。

library(Hmisc)
library(plyr)

ddply(iris, "Species", summarize, mean_sepal_length = mean(Sepal.Length))
#> Species mean_sepal_length
#> 1     setosa             5.006
#> 2 versicolor             5.936
#> 3  virginica             6.588
16
Deleet

同様の問題が発生しました(データセットは異なりますが、エラーメッセージは同じです)が、ddplyrが英国のスペル「summarise」を使用していることを発見しました。スペルを変更すると、コードは機能しました。

これが私が使用したコードです。 「z」スペルを使用すると、エラーメッセージError in .fun(piece, ...) : argument "by" is missing, with no default;が表示されました。しかし、「s」に変更すると解決しました。

library(plyr)
ddply(InsectSprays,.(spray),summarise,sum=sum(count))
3