リストをデータフレームとしてキャストする最も効率的な方法は何ですか？

Question

多くの場合、各インデックスが同じ要素タイプを持つリストをデータフレームに変換したいと思います。たとえば、リストがあります。

> my.list [[1]] [[1]]$global_stdev_ppb [1] 24267673 [[1]]$range [1] 0.03114799 [[1]]$tok [1] "hello" [[1]]$global_freq_ppb [1] 211592.6 [[2]] [[2]]$global_stdev_ppb [1] 11561448 [[2]]$range [1] 0.08870838 [[2]]$tok [1] "world" [[2]]$global_freq_ppb [1] 1002043

このリストを、各インデックス要素が列であるデータフレームに変換します。（私にとって）自然なことは、do.callを使用することです：

> my.matrix<-do.call("rbind", my.list) > my.matrix global_stdev_ppb range tok global_freq_ppb [1,] 24267673 0.03114799 "hello" 211592.6 [2,] 11561448 0.08870838 "world" 1002043

簡単ですが、このマトリックスをデータフレームとしてキャストしようとすると、列はベクトルではなくリスト要素のままです。

> my.df<-as.data.frame(my.matrix, stringsAsFactors=FALSE) > my.df[,1] [[1]] [1] 24267673 [[2]] [1] 11561448

現在、データフレームを適切にキャストするには、unlistおよびas.vectorを使用して各列を反復処理し、データフレームを次のように再キャストしています。

new.list<-lapply(1:ncol(my.matrix), function(x) as.vector(unlist(my.matrix[,x]))) my.df<-as.data.frame(do.call(cbind, new.list), stringsAsFactors=FALSE)

ただし、これは非常に非効率的です。これを行うためのより良い方法はありますか？

Joshua Ulrich · Accepted Answer

あなたが欲しいと思う：

> do.call(rbind, lapply(my.list, data.frame, stringsAsFactors=FALSE)) global_stdev_ppb range tok global_freq_ppb 1 24267673 0.03114799 hello 211592.6 2 11561448 0.08870838 world 1002043.0 > str(do.call(rbind, lapply(my.list, data.frame, stringsAsFactors=FALSE))) 'data.frame': 2 obs. of 4 variables: $ global_stdev_ppb: num 24267673 11561448 $ range : num 0.0311 0.0887 $ tok : chr "hello" "world" $ global_freq_ppb : num 211593 1002043

Gavin Simpson · Answer

別のオプションは次のとおりです。

data.frame(t(sapply(mylist, `[`)))

しかし、この簡単な操作により、リストのデータフレームが作成されます。

> str(data.frame(t(sapply(mylist, `[`)))) 'data.frame': 2 obs. of 3 variables: $ a:List of 2 ..$ : num 1 ..$ : num 2 $ b:List of 2 ..$ : num 2 ..$ : num 3 $ c:List of 2 ..$ : chr "a" ..$ : chr "b"

これに代わる方法は、同じ行に沿っていますが、結果は他のソリューションと同じです：

data.frame(lapply(data.frame(t(sapply(mylist, `[`))), unlist))

[編集：には、@ Martin Morganの2つのソリューションのタイミングが含まれており、ベクトルのデータフレームを返す他のソリューションよりもEdgeがあります。]非常に単純な問題の代表的なタイミング：

mylist <- list(list(a = 1, b = 2, c = "a"), list(a = 2, b = 3, c = "b")) > ## @Joshua Ulrich's solution: > system.time(replicate(1000, do.call(rbind, lapply(mylist, data.frame, + stringsAsFactors=FALSE)))) user system elapsed 1.740 0.001 1.750 > ## @JD Long's solution: > system.time(replicate(1000, do.call(rbind, lapply(mylist, data.frame)))) user system elapsed 2.308 0.002 2.339 > ## my sapply solution No.1: > system.time(replicate(1000, data.frame(t(sapply(mylist, `[`))))) user system elapsed 0.296 0.000 0.301 > ## my sapply solution No.2: > system.time(replicate(1000, data.frame(lapply(data.frame(t(sapply(mylist, `[`))), + unlist)))) user system elapsed 1.067 0.001 1.091 > ## @Martin Morgan's Map() sapply() solution: > f = function(x) function(i) sapply(x, `[[`, i) > system.time(replicate(1000, as.data.frame(Map(f(mylist), names(mylist[[1]]))))) user system elapsed 0.775 0.000 0.778 > ## @Martin Morgan's Map() lapply() unlist() solution: > f = function(x) function(i) unlist(lapply(x, `[[`, i), use.names=FALSE) > system.time(replicate(1000, as.data.frame(Map(f(mylist), names(mylist[[1]]))))) user system elapsed 0.653 0.000 0.658

JD Long · Answer

これがメモリや速度の点で「最も効率的」だとは言えませんが、コーディングの点ではかなり効率的です。

my.df <- do.call("rbind", lapply(my.list, data.frame))

data.frame（）を使用したlapply（）ステップは、各リスト項目を単一行のデータフレームに変換し、rbind（）を使用してNiceを実行します。

Kevin Ushey · Answer

この質問は長い間回答されてきましたが、data.tableパッケージには、このタスクを実行するrbindlistがありますvery迅速に：

library(microbenchmark) library(data.table) l <- replicate(1E4, list(a=runif(1), b=runif(1), c=runif(1)), simplify=FALSE) microbenchmark( times=5, R=as.data.frame(Map(f(l), names(l[[1]]))), dt=data.frame(rbindlist(l)) )

私にくれます

Unit: milliseconds expr min lq median uq max neval R 31.060119 31.403943 32.278537 32.370004 33.932700 5 dt 2.271059 2.273157 2.600976 2.635001 2.729421 5

Martin Morgan · Answer

この

_f = function(x) function(i) sapply(x, `[[`, i) _

xのi番目の要素を抽出する関数を返す関数です。そう

_Map(f(mylist), names(mylist[[1]])) _

データフレームに作成できるベクターの名前付き（Map！に感謝）リストを取得します。

_as.data.frame(Map(f(mylist), names(mylist[[1]]))) _

速度のために、通常unlist(lapply(...), use.names=FALSE)を次のように使用する方が高速です

_f = function(x) function(i) unlist(lapply(x, `[[`, i), use.names=FALSE) _

より一般的なバリアントは

_f = function(X, FUN) function(...) sapply(X, FUN, ...) _

リストのリスト構造はいつ作成されますか？おそらく、反復をよりベクトル化された何かに置き換えることができる初期のステップがありますか？

Yi Li · Answer

Dplyrパッケージのbind_rowsは効率的です。

one <- mtcars[1:4, ] two <- mtcars[11:14, ] system.time(dplyr::bind_rows(one, two)) user system elapsed 0.001 0.000 0.001

sbha · Answer

効率がどこまでランク付けされているかはわかりませんが、リストの構造によっては、いくつかのtidyverseオプションがあります。ボーナスは、長さが等しくないリストでもうまく機能することです。

l <- list(a = list(var.1 = 1, var.2 = 2, var.3 = 3) , b = list(var.1 = 4, var.2 = 5) , c = list(var.1 = 7, var.3 = 9) , d = list(var.1 = 10, var.2 = 11, var.3 = NA)) df <- dplyr::bind_rows(l) df <- purrr::map_df(l, dplyr::bind_rows) df <- purrr::map_df(l, ~.x) # all create the same data frame: # A tibble: 4 x 3 var.1 var.2 var.3 <dbl> <dbl> <dbl> 1 1 2 3 2 4 5 NA 3 7 NA 9 4 10 11 NA

また、ベクトルとデータフレームを混在させることもできます。

library(dplyr) bind_rows( list(a = 1, b = 2), data_frame(a = 3:4, b = 5:6), c(a = 7) ) # A tibble: 4 x 2 a b <dbl> <dbl> 1 1 2 2 3 5 3 4 6 4 7 NA