web-dev-qa-db-ja.com

data.frameの行を繰り返します

Data.frameの行をそれぞれN回繰り返したい。結果は、列のデータ型を保持する新しいdata.framenrow(new.df) == nrow(old.df) * N付き)になります。

N = 2の例:

                        A B   C
  A B   C             1 j i 100
1 j i 100     -->     2 j i 100
2 K P 101             3 K P 101
                      4 K P 101

したがって、各行は2回繰り返され、文字は文字のまま、因子は因子のまま、数値は数値のまま、...

最初に使用した試みは適用されます:apply(old.df, 2, function(co) rep(co, each = N))、しかしこれは私の値を文字に変換し、私は得る:

     A   B   C    
[1,] "j" "i" "100"
[2,] "j" "i" "100"
[3,] "K" "P" "101"
[4,] "K" "P" "101"
76
Stefan
df <- data.frame(a=1:2, b=letters[1:2]) 
df[rep(seq_len(nrow(df)), each=2),]
117
Josh O'Brien

here から取得した、きれいなdplyrソリューション

library(dplyr)
df <- tibble(x = 1:2, y = c("a", "b"))
df %>% slice(rep(1:n(), each = 2))
34
David Rubinger

全体を繰り返すか、最初にサブセット化してからそれを繰り返すことができる場合は、 この同様の質問 が役立つ場合があります。もう一度:

library(mefa)
rep(mtcars,10) 

または単に

mefa:::rep.data.frame(mtcars)
6
dardisco

たとえば、データフレームにntimes列を追加することにより、特定の行のみをn回繰り返す素敵なベクトル化ソリューションがあります。

  A B   C ntimes
1 j i 100      2
2 K P 101      4
3 Z Z 102      1

方法:

df <- data.frame(A=c("j","K","Z"), B=c("i","P","Z"), C=c(100,101,102), ntimes=c(2,4,1))
df <- as.data.frame(lapply(df, rep, df$ntimes))

結果:

  A B   C ntimes
1 Z Z 102      1
2 j i 100      2
3 j i 100      2
4 K P 101      4
5 K P 101      4
6 K P 101      4
7 K P 101      4

これはジョシュオブライエンとマークミラーの方法に非常に似ています。

df[rep(seq_len(nrow(df)), df$ntimes),]

ただし、その方法はかなり遅いようです:

df <- data.frame(A=c("j","K","Z"), B=c("i","P","Z"), C=c(100,101,102), ntimes=c(2000,3000,4000))

microbenchmark::microbenchmark(
  df[rep(seq_len(nrow(df)), df$ntimes),],
  as.data.frame(lapply(df, rep, df$ntimes)),
  times = 10
)

結果:

Unit: microseconds
                                      expr      min       lq      mean   median       uq      max neval
   df[rep(seq_len(nrow(df)), df$ntimes), ] 3563.113 3586.873 3683.7790 3613.702 3657.063 4326.757    10
 as.data.frame(lapply(df, rep, df$ntimes))  625.552  654.638  676.4067  668.094  681.929  799.893    10
4
Adam Erickson

@dardiscoがmefa::rep.data.frame()について述べたことに加えて、非常に柔軟です。

各行をN回繰り返す

rep(df, each=N)

またはデータフレーム全体をN回繰り返す(ベクトル化された引数をリサイクルするときのように)

rep(df, times=N)

mefaに2つの賛成!今まで聞いたことがないので、これを行うには手動のコードを書く必要がありました。

4
smci

Rep.row関数は、列のリストを作成することがありますが、これはメモリの不正使用につながります。私は次のように書いていますが、うまくいくようです:

library(plyr)
rep.row <- function(r, n){
  colwise(function(x) rep(x, n))(r)
}
4
jebyrnes

Mefaを引用して回答を参照するために、パッケージ全体を含めたくない場合にmefa::rep.data.frame()の実装を調べる価値があるかもしれません。

> data <- data.frame(a=letters[1:3], b=letters[4:6])
> data
  a b
1 a d
2 b e
3 c f
> as.data.frame(lapply(data, rep, 2))
  a b
1 a d
2 b e
3 c f
4 a d
5 b e
6 c f
4
Fabio Gabriel

私のソリューションはmefa:::rep.data.frameに似ていますが、少し速く、行名を気にしています:

rep.data.frame <- function(x, times) {
    rnames <- attr(x, "row.names")
    x <- lapply(x, rep.int, times = times)
    class(x) <- "data.frame"
    if (!is.numeric(rnames))
        attr(x, "row.names") <- make.unique(rep.int(rnames, times))
    else
        attr(x, "row.names") <- .set_row_names(length(rnames) * times)
    x
}

ソリューションを比較する:

library(Lahman)
library(microbenchmark)
microbenchmark(
    mefa:::rep.data.frame(Batting, 10),
    rep.data.frame(Batting, 10),
    Batting[rep.int(seq_len(nrow(Batting)), 10), ],
    times = 10
)
#> Unit: milliseconds
#>                                            expr       min       lq     mean   median        uq       max neval cld
#>              mefa:::rep.data.frame(Batting, 10) 127.77786 135.3480 198.0240 148.1749  278.1066  356.3210    10  a 
#>                     rep.data.frame(Batting, 10)  79.70335  82.8165 134.0974  87.2587  191.1713  307.4567    10  a 
#>  Batting[rep.int(seq_len(nrow(Batting)), 10), ] 895.73750 922.7059 981.8891 956.3463 1018.2411 1127.3927    10   b
2
Artem Klevtsov

たとえばを使用してみてください

N=2
rep(1:4, each = N) 

インデックスとして

これを行う別の方法は、最初に行インデックスを取得し、dfの余分なコピーを追加してから、インデックスで並べ替えます。

df$index = 1:nrow(df)
df = rbind(df,df)
df = df[order(df$index),][,-ncol(df)]

他のソリューションの方が短い場合もありますが、特定の状況ではこの方法の方が有利な場合があります。

0
crazjo