dplyr left_joinより小さい、より大きい条件

Question

この質問は、問題に多少関連しています非自明な基準で2つのデータフレームを効率的にマージするおよび日付がrの2つの日付の間にあるかどうかを確認する。そして、機能が存在するかどうかを要求するここに投稿したもの： GitHub issue

dplyr::left_join()を使用して2つのデータフレームを結合しようとしています。参加に使用する条件は、より小さい、より大きい、つまり_<=_および_>_です。 dplyr::left_join()はこの機能をサポートしていますか？または、キーはそれらの間に_=_演算子のみを取ります。これは、SQLから実行するのは簡単です（データベースにデータフレームがあると仮定します）

MWEは次のとおりです。1つの企業年（fdata）に2つのデータセットがあり、2つ目は5年に1回発生する一種の調査データです。したがって、2つの調査年の間にあるfdataのすべての年について、対応する調査年のデータに参加します。

_id <- c(1,1,1,1, 2,2,2,2,2,2, 3,3,3,3,3,3, 5,5,5,5, 8,8,8,8, 13,13,13) fyear <- c(1998,1999,2000,2001,1998,1999,2000,2001,2002,2003, 1998,1999,2000,2001,2002,2003,1998,1999,2000,2001, 1998,1999,2000,2001,1998,1999,2000) byear <- c(1990,1995,2000,2005) eyear <- c(1995,2000,2005,2010) val <- c(3,1,5,6) sdata <- tbl_df(data.frame(byear, eyear, val)) fdata <- tbl_df(data.frame(id, fyear)) test1 <- left_join(fdata, sdata, by = c("fyear" >= "byear","fyear" < "eyear")) _

私は得る

_Error: cannot join on columns 'TRUE' x 'TRUE': index out of bounds _

_left_join_が条件を処理できる場合を除き、構文に何か不足していますか？

Ian Gow · Accepted Answer

filterを使用します。（ただし、この回答ではnotが正しいLEFT JOINを生成しますが、MWEはINNER JOINを使用して正しい結果を返します。）

dplyrパッケージは、何もマージすることなく2つのテーブルをマージするよう求められた場合、満足できないので、以下では、この目的のために両方のテーブルにダミー変数を作成し、フィルターしてからdummyをドロップします：

fdata %>% mutate(dummy=TRUE) %>% left_join(sdata %>% mutate(dummy=TRUE)) %>% filter(fyear >= byear, fyear < eyear) %>% select(-dummy)

（たとえば）PostgreSQLでこれを行う場合、クエリオプティマイザーは、次の2つのクエリの説明から明らかなように、dummy変数を参照します。

> fdata %>% + mutate(dummy=TRUE) %>% + left_join(sdata %>% mutate(dummy=TRUE)) %>% + filter(fyear >= byear, fyear < eyear) %>% + select(-dummy) %>% + explain() Joining by: "dummy" <SQL> SELECT "id" AS "id", "fyear" AS "fyear", "byear" AS "byear", "eyear" AS "eyear", "val" AS "val" FROM (SELECT * FROM (SELECT "id", "fyear", TRUE AS "dummy" FROM "fdata") AS "zzz136" LEFT JOIN (SELECT "byear", "eyear", "val", TRUE AS "dummy" FROM "sdata") AS "zzz137" USING ("dummy")) AS "zzz138" WHERE "fyear" >= "byear" AND "fyear" < "eyear" <PLAN> Nested Loop (cost=0.00..50886.88 rows=322722 width=40) Join Filter: ((fdata.fyear >= sdata.byear) AND (fdata.fyear < sdata.eyear)) -> Seq Scan on fdata (cost=0.00..28.50 rows=1850 width=16) -> Materialize (cost=0.00..33.55 rows=1570 width=24) -> Seq Scan on sdata (cost=0.00..25.70 rows=1570 width=24)

sQLを使用してよりクリーンに実行すると、exactlyと同じ結果が得られます。

> tbl(pg, sql(" + SELECT * + FROM fdata + LEFT JOIN sdata + ON fyear >= byear AND fyear < eyear")) %>% + explain() <SQL> SELECT "id", "fyear", "byear", "eyear", "val" FROM ( SELECT * FROM fdata LEFT JOIN sdata ON fyear >= byear AND fyear < eyear) AS "zzz140" <PLAN> Nested Loop Left Join (cost=0.00..50886.88 rows=322722 width=40) Join Filter: ((fdata.fyear >= sdata.byear) AND (fdata.fyear < sdata.eyear)) -> Seq Scan on fdata (cost=0.00..28.50 rows=1850 width=16) -> Materialize (cost=0.00..33.55 rows=1570 width=24) -> Seq Scan on sdata (cost=0.00..25.70 rows=1570 width=24)

eddi · Answer

data.table v 1.9.8から非等結合を追加します

library(data.table) #v>=1.9.8 setDT(sdata); setDT(fdata) # converting to data.table in place fdata[sdata, on = .(fyear >= byear, fyear < eyear), nomatch = 0, .(id, x.fyear, byear, eyear, val)] # id x.fyear byear eyear val # 1: 1 1998 1995 2000 1 # 2: 2 1998 1995 2000 1 # 3: 3 1998 1995 2000 1 # 4: 5 1998 1995 2000 1 # 5: 8 1998 1995 2000 1 # 6: 13 1998 1995 2000 1 # 7: 1 1999 1995 2000 1 # 8: 2 1999 1995 2000 1 # 9: 3 1999 1995 2000 1 #10: 5 1999 1995 2000 1 #11: 8 1999 1995 2000 1 #12: 13 1999 1995 2000 1 #13: 1 2000 2000 2005 5 #14: 2 2000 2000 2005 5 #15: 3 2000 2000 2005 5 #16: 5 2000 2000 2005 5 #17: 8 2000 2000 2005 5 #18: 13 2000 2000 2005 5 #19: 1 2001 2000 2005 5 #20: 2 2001 2000 2005 5 #21: 3 2001 2000 2005 5 #22: 5 2001 2000 2005 5 #23: 8 2001 2000 2005 5 #24: 2 2002 2000 2005 5 #25: 3 2002 2000 2005 5 #26: 2 2003 2000 2005 5 #27: 3 2003 2000 2005 5 # id x.fyear byear eyear val

これを1.9.6のfoverlapsで動作させるには、もう少し努力する必要があります。

aosmith · Answer

これは、fuzzyjoinアドレスをパッケージ化する一種のタスクのように見えます。パッケージのさまざまな関数は、dplyr結合関数に似ており、機能します。

この場合、fuzzy_*_join関数の1つが機能します。 dplyr::left_joinとfuzzyjoin::fuzzy_left_joinの主な違いは、match.fun引数を使用して、照合プロセスで使用する関数のリストを指定することです。 by引数は、left_joinと同じように記述されていることに注意してください。

以下に例を示します。照合に使用した関数は、fyearからbyearおよびfyearからeyear比較の>=および<です。、それぞれ。の

library(fuzzyjoin) fuzzy_left_join(fdata, sdata, by = c("fyear" = "byear", "fyear" = "eyear"), match_fun = list(`>=`, `<`)) Source: local data frame [27 x 5] id fyear byear eyear val (dbl) (dbl) (dbl) (dbl) (dbl) 1 1 1998 1995 2000 1 2 1 1999 1995 2000 1 3 1 2000 2000 2005 5 4 1 2001 2000 2005 5 5 2 1998 1995 2000 1 6 2 1999 1995 2000 1 7 2 2000 2000 2005 5 8 2 2001 2000 2005 5 9 2 2002 2000 2005 5 10 2 2003 2000 2005 5 .. ... ... ... ... ...

alistaire · Answer

1つのオプションは、行ごとにリスト列として結合してから、列のネストを解除することです。

# evaluate each row individually fdata %>% rowwise() %>% # insert list column of single row of sdata based on conditions mutate(s = list(sdata %>% filter(fyear >= byear, fyear < eyear))) %>% # unnest list column tidyr::unnest() # Source: local data frame [27 x 5] # # id fyear byear eyear val # (dbl) (dbl) (dbl) (dbl) (dbl) # 1 1 1998 1995 2000 1 # 2 1 1999 1995 2000 1 # 3 1 2000 2000 2005 5 # 4 1 2001 2000 2005 5 # 5 2 1998 1995 2000 1 # 6 2 1999 1995 2000 1 # 7 2 2000 2000 2005 5 # 8 2 2001 2000 2005 5 # 9 2 2002 2000 2005 5 # 10 2 2003 2000 2005 5 # .. ... ... ... ... ...