dplyrウィンドウ関数を使用してパーセンタイルを計算する

Question

私は実用的なソリューションを持っていますが、おそらくより新しいdplyrウィンドウ機能のいくつかを利用する、よりクリーンで読みやすいソリューションを探しています。

Mtcarsデータセットを使用して、25パーセンタイル、50パーセンタイル、75パーセンタイル、シリンダー数（ "cyl"）あたりのガロンあたりの平均マイル数（ "mpg"）を調べたい場合は、次のコードを使用します。

library(dplyr) library(tidyr) # load data data("mtcars") # Percentiles used in calculation p <- c(.25,.5,.75) # old dplyr solution mtcars %>% group_by(cyl) %>% do(data.frame(p=p, stats=quantile(.$mpg, probs=p), n = length(.$mpg), avg = mean(.$mpg))) %>% spread(p, stats) %>% select(1, 4:6, 3, 2) # note: the select and spread statements are just to get the data into # the format in which I'd like to see it, but are not critical

いくつかの集計関数（n_tiles、percent_rankなど）を使用して、dplyrでこれをよりきれいに行う方法はありますか？きれいに言うと、「do」ステートメントがないことを意味します。

ありがとうございました

Julia Silge · Accepted Answer

purrr::mapを使用する場合は、次のようにできます！

library(tidyverse) mtcars %>% tbl_df() %>% nest(-cyl) %>% mutate(Quantiles = map(data, ~ quantile(.$mpg)), Quantiles = map(Quantiles, ~ bind_rows(.) %>% gather())) %>% unnest(Quantiles) #> # A tibble: 15 x 3 #> cyl key value #> <dbl> <chr> <dbl> #> 1 6 0% 17.8 #> 2 6 25% 18.6 #> 3 6 50% 19.7 #> 4 6 75% 21 #> 5 6 100% 21.4 #> 6 4 0% 21.4 #> 7 4 25% 22.8 #> 8 4 50% 26 #> 9 4 75% 30.4 #> 10 4 100% 33.9 #> 11 8 0% 10.4 #> 12 8 25% 14.4 #> 13 8 50% 15.2 #> 14 8 75% 16.2 #> 15 8 100% 19.2

^{reprexパッケージ（v0.2.1）によって2018-11-10に作成}

このアプローチの利点の1つは、出力が整然としており、行ごとに1つの観測があることです。

eipi10 · Answer

UPDATE 2：enframeを使用して、以前のバージョンのsummarise()をワンライナーに変換するもう1つの更新：

library(tidyverse) mtcars %>% group_by(cyl) %>% summarise(mpg = list(enframe(quantile(mpg, probs=c(0.25,0.5,0.75))))) %>% unnest

 cyl quantiles mpg 1 4 25% 22.80 2 4 50% 26.00 3 4 75% 30.40 4 6 25% 18.65 5 6 50% 19.70 6 6 75% 21.00 7 8 25% 14.40 8 8 50% 15.20 9 8 75% 16.25

これは、tidyevalを使用してより一般的な関数に変換できます。

q_by_group = function(data, value.col, ..., probs=seq(0,1,0.25)) { value.col=enquo(value.col) groups=enquos(...) data %>% group_by(!!!groups) %>% summarise(mpg = list(enframe(quantile(!!value.col, probs=probs)))) %>% unnest } q_by_group(mtcars, mpg) q_by_group(mtcars, mpg, cyl) q_by_group(mtcars, mpg, cyl, vs, probs=c(0.5,0.75)) q_by_group(iris, Petal.Width, Species)

UPDATE：ネストを使用して変位値を取得するが、mapを使用しない@JuliaSilgeの答えのバリエーションです。ただし、quantileの呼び出しから分位の名前を別の列に直接キャプチャする方法（または可能かどうか）が分からないため、分位レベルをリストする列を追加するためにコードの追加行が必要です。

p = c(0.25,0.5,0.75) mtcars %>% group_by(cyl) %>% summarise(quantiles = list(sprintf("%1.0f%%", p*100)), mpg = list(quantile(mpg, p))) %>% unnest

オリジナルの回答

以下はdplyrを回避するdoのアプローチですが、各分位値に対してquantileを個別に呼び出す必要があります。

mtcars %>% group_by(cyl) %>% summarise(`25%`=quantile(mpg, probs=0.25), `50%`=quantile(mpg, probs=0.5), `75%`=quantile(mpg, probs=0.75), avg=mean(mpg), n=n()) cyl 25% 50% 75% avg n 1 4 22.80 26.0 30.40 26.66364 11 2 6 18.65 19.7 21.00 19.74286 7 3 8 14.40 15.2 16.25 15.10000 14

summariseは、quantileの1回の呼び出しで複数の値を返すことができればよいのですが、これはdplyr開発では未解決の問題のように見えます。

Bastiaan Quast · Answer

これはdplyrパッケージのtidy()関数を使用するbroomアプローチです。残念ながらまだdo()が必要ですが、もっと簡単です。

_library(dplyr) library(broom) mtcars %>% group_by(cyl) %>% do( tidy(t(quantile(.$mpg))) ) _

与えるもの：

_ cyl X0. X25. X50. X75. X100. (dbl) (dbl) (dbl) (dbl) (dbl) (dbl) 1 4 21.4 22.80 26.0 30.40 33.9 2 6 17.8 18.65 19.7 21.00 21.4 3 8 10.4 14.40 15.2 16.25 19.2 _

broomパッケージには名前付き数値のメソッドがないため、t()の使用に注意してください。

これは、私の summary（）の以前の回答はこちらに基づいています。

Arun · Answer

dplyrでdo()を回避する方法がわかりませんが、c()とas.list()でdata.table非常に簡単な方法で：

require(data.table) as.data.table(mtcars)[, c(as.list(quantile(mpg, probs=p)), avg=mean(mpg), n=.N), by=cyl] # cyl 25% 50% 75% avg n # 1: 6 18.65 19.7 21.00 19.74286 7 # 2: 4 22.80 26.0 30.40 26.66364 11 # 3: 8 14.40 15.2 16.25 15.10000 14

by列で並べ替える場合は、keybyをcylに置き換えます。

isDotR · Answer

このソリューションはdplyrとtidyrのみを使用し、dplyrチェーンで分位を指定でき、tidyr::crossing()を利用して複数のコピーを「スタック」します。グループ化および要約する前のデータセットの。

_diamonds %>% # Initial data tidyr::crossing(pctile = 0:4/4) %>% # Specify quantiles; crossing() is like expand.grid() dplyr::group_by(cut, pctile) %>% # Indicate your grouping var, plus your quantile var dplyr::summarise(quantile_value = quantile(price, unique(pctile))) %>% # unique() is needed dplyr::mutate(pctile = sprintf("%1.0f%%", pctile*100)) # Optional prettification _

結果：

_# A tibble: 25 x 3 # Groups: cut [5] cut pctile quantile_value <ord> <chr> <dbl> 1 Fair 0% 337.00 2 Fair 25% 2050.25 3 Fair 50% 3282.00 4 Fair 75% 5205.50 5 Fair 100% 18574.00 6 Good 0% 327.00 7 Good 25% 1145.00 8 Good 50% 3050.50 9 Good 75% 5028.00 10 Good 100% 18788.00 11 Very Good 0% 336.00 12 Very Good 25% 912.00 13 Very Good 50% 2648.00 14 Very Good 75% 5372.75 15 Very Good 100% 18818.00 16 Premium 0% 326.00 17 Premium 25% 1046.00 18 Premium 50% 3185.00 19 Premium 75% 6296.00 20 Premium 100% 18823.00 21 Ideal 0% 326.00 22 Ideal 25% 878.00 23 Ideal 50% 1810.00 24 Ideal 75% 4678.50 25 Ideal 100% 18806.00 _

unique()は、グループごとに1つの値のみが必要であることをdplyr::summarise()に知らせるために必要です。

tbradley · Answer

dplyr、purrr、およびrlangの組み合わせを使用したソリューションは次のとおりです。

library(dplyr) #> #> Attaching package: 'dplyr' #> The following objects are masked from 'package:stats': #> #> filter, lag #> The following objects are masked from 'package:base': #> #> intersect, setdiff, setequal, union library(tidyr) library(purrr) # load data data("mtcars") # Percentiles used in calculation p <- c(.25,.5,.75) p_names <- paste0(p*100, "%") p_funs <- map(p, ~partial(quantile, probs = .x, na.rm = TRUE)) %>% set_names(nm = p_names) # dplyr/purrr/rlang solution mtcars %>% group_by(cyl) %>% summarize_at(vars(mpg), funs(!!!p_funs)) #> # A tibble: 3 x 4 #> cyl `25%` `50%` `75%` #> <dbl> <dbl> <dbl> <dbl> #> 1 4 22.8 26 30.4 #> 2 6 18.6 19.7 21 #> 3 8 14.4 15.2 16.2 #Especially useful if you want to summarize more variables mtcars %>% group_by(cyl) %>% summarize_at(vars(mpg, drat), funs(!!!p_funs)) #> # A tibble: 3 x 7 #> cyl `mpg_25%` `drat_25%` `mpg_50%` `drat_50%` `mpg_75%` `drat_75%` #> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> #> 1 4 22.8 3.81 26 4.08 30.4 4.16 #> 2 6 18.6 3.35 19.7 3.9 21 3.91 #> 3 8 14.4 3.07 15.2 3.12 16.2 3.22

reprexパッケージ（v0.2.0）によって2018-10-01に作成されました。

編集（2019-04-17）：

dplyr 0.8.0の時点で、funs関数は非推奨となり、listを使用して目的の関数をスコープ付きdplyr関数に渡します。この結果、上記の実装はわずかにまっすぐになります。 !!!を使用して関数の引用符を外すことを心配する必要がなくなりました。以下のreprexをご覧ください：

library(dplyr) #> Warning: package 'dplyr' was built under R version 3.5.2 #> #> Attaching package: 'dplyr' #> The following objects are masked from 'package:stats': #> #> filter, lag #> The following objects are masked from 'package:base': #> #> intersect, setdiff, setequal, union library(tidyr) library(purrr) # load data data("mtcars") # Percentiles used in calculation p <- c(.25,.5,.75) p_names <- paste0(p*100, "%") p_funs <- map(p, ~partial(quantile, probs = .x, na.rm = TRUE)) %>% set_names(nm = p_names) # dplyr/purrr/rlang solution mtcars %>% group_by(cyl) %>% summarize_at(vars(mpg), p_funs) #> # A tibble: 3 x 4 #> cyl `25%` `50%` `75%` #> <dbl> <dbl> <dbl> <dbl> #> 1 4 22.8 26 30.4 #> 2 6 18.6 19.7 21 #> 3 8 14.4 15.2 16.2 #Especially useful if you want to summarize more variables mtcars %>% group_by(cyl) %>% summarize_at(vars(mpg, drat), p_funs) #> # A tibble: 3 x 7 #> cyl `mpg_25%` `drat_25%` `mpg_50%` `drat_50%` `mpg_75%` `drat_75%` #> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> #> 1 4 22.8 3.81 26 4.08 30.4 4.16 #> 2 6 18.6 3.35 19.7 3.9 21 3.91 #> 3 8 14.4 3.07 15.2 3.12 16.2 3.22

reprexパッケージ（v0.2.0）によって2019-04-17に作成されました。

bschneidr · Answer

dplyrとpurrrを使用して整頓された形式で変位値を返す、かなり読みやすいソリューションを次に示します。

コード

library(dplyr) library(purrr) mtcars %>% group_by(cyl) %>% do({x <- .$mpg map_dfr(.x = c(.25, .5, .75), .f = ~ data_frame(Quantile = .x, Value = quantile(x, probs = .x))) })

結果

# A tibble: 9 x 3 # Groups: cyl [3] cyl Quantile Value <dbl> <dbl> <dbl> 1 4 0.25 22.80 2 4 0.50 26.00 3 4 0.75 30.40 4 6 0.25 18.65 5 6 0.50 19.70 6 6 0.75 21.00 7 8 0.25 14.40 8 8 0.50 15.20 9 8 0.75 16.25

Antex · Answer

多くの異なる方法に答えました。 dplyr distinctは、私がやりたいことを変えました。

mtcars %>% select(cyl, mpg) %>% group_by(cyl) %>% mutate( qnt_0 = quantile(mpg, probs= 0), qnt_25 = quantile(mpg, probs= 0.25), qnt_50 = quantile(mpg, probs= 0.5), qnt_75 = quantile(mpg, probs= 0.75), qnt_100 = quantile(mpg, probs= 1), mean = mean(mpg), sd = sd(mpg) ) %>% distinct(qnt_0 ,qnt_25 ,qnt_50 ,qnt_75 ,qnt_100 ,mean ,sd)

レンダリングする

# A tibble: 3 x 8 # Groups: cyl [3] qnt_0 qnt_25 qnt_50 qnt_75 qnt_100 mean sd cyl <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 17.8 18.6 19.7 21 21.4 19.7 1.45 6 2 21.4 22.8 26 30.4 33.9 26.7 4.51 4 3 10.4 14.4 15.2 16.2 19.2 15.1 2.56 8

egnha · Answer

do()は、グループ単位の変換用に設計されているため、実際には正しいイディオムです。データフレームのグループにマップするlapply()と考えてください。（このような特殊な機能の場合、「do」などの一般的な名前は理想的ではありません。しかし、変更するには遅すぎます。）

道徳的に、各cylグループ内で、mpg列にquantile()を適用します。

_library(dplyr) p <- c(.2, .5, .75) mtcars %>% group_by(cyl) %>% do(quantile(.$mpg, p)) #> Error: Results 1, 2, 3 must be data frames, not numeric _

quantile()はデータフレームを返さないため、これは機能しません。その出力を明示的に変換する必要があります。この変更はquantile()をデータフレームでラップすることになるため、 gestalt 関数構成演算子_%>>>%_を使用できます。

_library(gestalt) library(tibble) quantile_tbl <- quantile %>>>% enframe("quantile") mtcars %>% group_by(cyl) %>% do(quantile_tbl(.$mpg, p)) #> # A tibble: 9 x 3 #> # Groups: cyl [3] #> cyl quantile value #> <dbl> <chr> <dbl> #> 1 4 20% 22.8 #> 2 4 50% 26 #> 3 4 75% 30.4 #> 4 6 20% 18.3 #> 5 6 50% 19.7 #> 6 6 75% 21 #> 7 8 20% 13.9 #> 8 8 50% 15.2 #> 9 8 75% 16.2 _