dplyrを使用してデータフレームを溶融およびキャストする方法

Question

最近、私はdplyrを使用してすべてのデータ操作を行っていますが、それはそのための優れたツールです。ただし、dplyrを使用してデータフレームを溶融またはキャストすることはできません。それを行う方法はありますか？現在、この目的のためにreshape2を使用しています。

「dplyr」ソリューションが必要です：

require(reshape2)
data(iris)
dat <- melt(iris,id.vars="Species")

「dplyr」ソリューションが必要です：

require(reshape2) data(iris) dat <- melt(iris,id.vars="Species")

konvas · Accepted Answer

_reshape2_の後継はtidyrです。 melt()およびdcast()と同等のものは、それぞれgather()およびspread()です。あなたのコードに相当するものは

_library(tidyr) data(iris) dat <- gather(iris, variable, value, -Species) _

magrittrがインポートされている場合、dplyrのようなパイプ演算子を使用できます。

_dat <- iris %>% gather(variable, value, -Species) _

melt()とは異なり、変数と値の名前を明示的に指定する必要があることに注意してください。 gather()の構文は非常に便利です。長い形式に変換する列を指定するか、「-」を先頭に付けて新しいデータフレームに残す列を指定できるためです'（上記のSpeciesのように）、melt()よりも入力が少し高速です。しかし、少なくとも私のマシンでは、tidyrは_reshape2_よりも著しく遅くなることに気付きました。

編集以下の@hadleyのコメントに返信して、PCの2つの機能を比較するタイミング情報を投稿しています。

_library(microbenchmark) microbenchmark( melt = melt(iris,id.vars="Species"), gather = gather(iris, variable, value, -Species) ) # Unit: microseconds # expr min lq median uq max neval # melt 278.829 290.7420 295.797 320.5730 389.626 100 # gather 536.974 552.2515 567.395 683.2515 1488.229 100 set.seed(1) iris1 <- iris[sample(1:nrow(iris), 1e6, replace = T), ] system.time(melt(iris1,id.vars="Species")) # user system elapsed # 0.012 0.024 0.036 system.time(gather(iris1, variable, value, -Species)) # user system elapsed # 0.364 0.024 0.387 sessionInfo() # R version 3.1.1 (2014-07-10) # Platform: x86_64-pc-linux-gnu (64-bit) # # locale: # [1] LC_CTYPE=en_GB.UTF-8 LC_NUMERIC=C # [3] LC_TIME=en_GB.UTF-8 LC_COLLATE=en_GB.UTF-8 # [5] LC_MONETARY=en_GB.UTF-8 LC_MESSAGES=en_GB.UTF-8 # [7] LC_PAPER=en_GB.UTF-8 LC_NAME=C # [9] LC_ADDRESS=C LC_TELEPHONE=C # [11] LC_MEASUREMENT=en_GB.UTF-8 LC_IDENTIFICATION=C # attached base packages: # [1] stats graphics grDevices utils datasets methods base # # other attached packages: # [1] reshape2_1.4 microbenchmark_1.3-0 magrittr_1.0.1 # [4] tidyr_0.1 # # loaded via a namespace (and not attached): # [1] assertthat_0.1 dplyr_0.2 parallel_3.1.1 plyr_1.8.1 Rcpp_0.11.2 # [6] stringr_0.6.2 tools_3.1.1 _

Lovetoken · Answer

さらに、キャストではtidyr::spread()を使用できます

あなたの例

library(reshape2) library(tidyr) library(dplyr) # example data : `mini_iris` (mini_iris <- iris[c(1, 51, 101), ]) # melt (melted1 <- mini_iris %>% melt(id.vars = "Species")) # on reshape2 (melted2 <- mini_iris %>% gather(variable, value, -Species)) # on tidyr # cast melted1 %>% dcast(Species ~ variable, value.var = "value") # on reshape2 melted2 %>% spread(variable, value) # on tidyr

micstr · Answer

@Lovetokenのmini_irisの例を使用して上記の回答に追加するには（これはコメントには複雑すぎます）-メルトとキャストの意味を理解していない新規ユーザー向け。

library(reshape2) library(tidyr) library(dplyr) # example data : `mini_iris` mini_iris <- iris[c(1, 51, 101), ] # mini_iris #Sepal.Length Sepal.Width Petal.Length Petal.Width Species #1 5.1 3.5 1.4 0.2 setosa #51 7.0 3.2 4.7 1.4 versicolor #101 6.3 3.3 6.0 2.5 virginica

メルトはデータフレームを取得し、値の長いリストに拡大しています。効率的ではありませんが、データのセットを結合する必要がある場合に役立ちます。 テーブルの上で溶けて広がるアイスキューブの構造を考えてください。

melted1 <- testiris %>% melt(id.vars = "Species") > nrow(melted1) [1] 12 head(melted1) # Species variable value # 1 setosa Sepal.Length 5.1 # 2 versicolor Sepal.Length 7.0 # 3 virginica Sepal.Length 6.3 # 4 setosa Sepal.Width 3.5 # 5 versicolor Sepal.Width 3.2 # 6 virginica Sepal.Width 3.3

データが多くの値の行に分割されていることがわかります。列名は、変数列内のテキストになりました。

キャストすると、data.tableまたはdata.frameに再構築されます。