JOIN 2データフレームをクロスする方法は？

Question

2データフレームのCROSS JOINを取得するのに苦労しています。 spark 2.0を使用しています。2つのデータフレームでCROSSS JOINを実装するにはどうすればよいですか？

編集：

val df=df.join(df_t1, df("Col1")===df_t1("col")).join(df2,joinType=="cross join").where(df("col2")===df2("col2"))

編集：

val df=df.join(df_t1, df("Col1")===df_t1("col")).join(df2,joinType=="cross join").where(df("col2")===df2("col2"))

Ravish · Answer

条件を指定する必要がない場合はcrossJoinを使用します

ここに作業コードの抜粋があります：

people.crossJoin(area).show()

Nischay · Answer

最新バージョンのspark-sql_2.11バージョン2.1.0にアップグレードし、データセットの関数.crossJoinを使用します。

pheeleeppoo · Answer

結合条件を使用せずに、他のデータフレームでjoinを呼び出します。

次の例を見てください。人々の最初のデータフレームを考える：

+---+------+-------+------+ | id| name| mail|idArea| +---+------+-------+------+ | 1| Jack|j@j.com| 1| | 2|Valery|x@v.com| 1| | 3| Karl|k@k.com| 2| | 4| Nick|n@n.com| 2| | 5| Luke|l@f.com| 3| | 6| Marek|a@b.com| 3| +---+------+-------+------+

エリアの2番目のデータフレーム：

+------+--------------+ |idArea| areaName| +------+--------------+ | 1|Amministration| | 2| Public| | 3| Store| +------+--------------+

クロス結合は単純に次のように与えられます：

val cross = people.join(area) +---+------+-------+------+------+--------------+ | id| name| mail|idArea|idArea| areaName| +---+------+-------+------+------+--------------+ | 1| Jack|j@j.com| 1| 1|Amministration| | 1| Jack|j@j.com| 1| 3| Store| | 1| Jack|j@j.com| 1| 2| Public| | 2|Valery|x@v.com| 1| 1|Amministration| | 2|Valery|x@v.com| 1| 3| Store| | 2|Valery|x@v.com| 1| 2| Public| | 3| Karl|k@k.com| 2| 1|Amministration| | 3| Karl|k@k.com| 2| 2| Public| | 3| Karl|k@k.com| 2| 3| Store| | 4| Nick|n@n.com| 2| 3| Store| | 4| Nick|n@n.com| 2| 2| Public| | 4| Nick|n@n.com| 2| 1|Amministration| | 5| Luke|l@f.com| 3| 2| Public| | 5| Luke|l@f.com| 3| 3| Store| | 5| Luke|l@f.com| 3| 1|Amministration| | 6| Marek|a@b.com| 3| 1|Amministration| | 6| Marek|a@b.com| 3| 2| Public| | 6| Marek|a@b.com| 3| 3| Store| +---+------+-------+------+------+--------------+