Spark：パスが存在する場合のみファイルを読み込む

Question

ScalaのPathsのSequenceにあるファイルを読み取ろうとしています。以下は、サンプル（擬似）コードです。

val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*)

さて、上記のシーケンスでは、いくつかのパスは存在しますが、いくつかは存在しません。 parquetファイルの読み取り中に欠落しているパスを無視する方法はありますか（org.Apache.spark.sql.AnalysisException: Path does not existを避けるため）？

私は以下を試しましたが、うまくいっているようですが、その後、同じパスを2回読んでしまいます。これは避けたいものです：

val filteredPaths = paths.filter(p => Try(spark.read.parquet(p)).isSuccess)

optionsのDataFrameReaderメソッドをチェックしましたが、ignore_if_missingに似たオプションはないようです。

また、これらのパスはhdfsまたはs3（このSeqはメソッド引数として渡されます）であり、読み取り中に、パスがs3またはhdfsであるかどうかわかりませんしたがって、s3またはhdfs固有のAPIを使用して存在を確認することはできません。

Assaf Mendelson · Answer

@Psidomの答えのように、無関係なファイルを除外できます。スパークでは、内部のspark hadoop設定を使用するのが最善の方法です。sparkセッション変数は「spark」と呼ばれます。

import org.Apache.hadoop.fs.FileSystem import org.Apache.hadoop.fs.Path val hadoopfs: FileSystem = FileSystem.get(spark.sparkContext.hadoopConfiguration) def testDirExist(path: String): Boolean = { val p = new Path(path) hadoopfs.exists(p) && hadoopfs.getFileStatus(p).isDirectory } val filteredPaths = paths.filter(p => testDirExists(p)) val dataframe = spark.read.parquet(filteredPaths: _*)

Psidom · Answer

最初にpathsをフィルタリングする方法は次のとおりです。

paths.filter(f => new Java.io.File(f).exists)

例えば：

Seq("/tmp", "xx").filter(f => new Java.io.File(f).exists) // res18: List[String] = List(/tmp)