data.tableの合計とサブセット

Question

集計したいdata.tableがあります

library(data.table) dt1 <- data.table(year=c("2001","2001","2001","2002","2002","2002","2002"), group=c("a","a","b","a","a","b","b"), amt=c(20,40,20,35,30,28,19))

年とグループごとに金額をsumしてから、任意のグループの合計金額が100より大きい場所をフィルタリングしたいと考えています。

Data.tableの合計が釘付けになりました。

dt1[, sum(amt),by=list(year,group)] year group V1 1: 2001 a 60 2: 2001 b 20 3: 2002 a 65 4: 2002 b 47

最終レベルのフィルタリングに問題があります。

私が探している最終結果は次のとおりです。

 year group V1 1: 2001 a 60 2: 2002 a 65

なので a) 60 + 65 > 100一方b) 20 + 47 <= 100

これを達成する方法についての考えは素晴らしいでしょう。

私はこれを見て data.table sum by group and return row with max value そしてそれらが私の問題に対する同様に雄弁な解決策であるかどうか疑問に思いました。

thelatemail · Accepted Answer

data.tableのシングルライナー：

dt1[, lapply(.SD,sum), by=list(year,group)][, if (sum(amt) > 100) .SD, by=group] # group year amt #1: a 2001 60 #2: a 2002 65

Steven Beaupr&#233; · Answer

できるよ：

library(dplyr) dt1 %>% group_by(group, year) %>% summarise(amt = sum(amt)) %>% filter(sum(amt) > 100)

それは与える：

#Source: local data table [2 x 3] #Groups: group # # year group amt #1 2001 a 60 #2 2002 a 65

BICube · Answer

これはアイデアの解決策ではないかもしれませんが、私は次のようにいくつかのステップでそれを行います：

dt2=dt1[, sum(amt),by=list(year,group)] dt3=dt1[, sum(amt)>100,by=list(group)] dt_result=dt2[group %in% dt3[V1==TRUE]$group,]

Frank · Answer

これが2つのライナーです。最初に必要なグループのサブセットを見つけます

big_groups <- dt1[,sum(amt),by=group][V1>100]$group dt1[group%in%big_groups,sum(amt),by=list(year,group)]