web-dev-qa-db-ja.com

Hadoopプログラムのマッパーで入力ファイル名を取得する方法は?

マッパー内で入力ファイルの名前を取得するにはどうすればよいですか?入力ディレクトリに複数の入力ファイルが保存されており、各マッパーが異なるファイルを読み取る場合があり、マッパーが読み取ったファイルを知る必要があります。

41
H.Z.

まず、入力分割を取得する必要があります。新しいmapreduce APIを使用すると、次のようになります。

context.getInputSplit();

ただし、ファイルパスとファイル名を取得するには、最初に結果をFileSplitに型キャストする必要があります。

したがって、入力ファイルのパスを取得するには、次の操作を実行できます。

Path filePath = ((FileSplit) context.getInputSplit()).getPath();
String filePathString = ((FileSplit) context.getInputSplit()).getPath().toString();

同様に、ファイル名を取得するには、次のようにgetName()を呼び出すだけです。

String fileName = ((FileSplit) context.getInputSplit()).getPath().getName();
44
Amar

これをマッパー内で使用します。

FileSplit fileSplit = (FileSplit)context.getInputSplit();
String filename = fileSplit.getPath().getName();

編集:

configure()を介して古いAPIで実行したい場合は、これを試してください:

String fileName = new String();
public void configure(JobConf job)
{
   filename = job.get("map.input.file");
}
14
Tariq

Hadoop Streaming を使用している場合は、 ストリーミングジョブのマッパー/リデューサーのJobConf変数 を使用できます。

マッパーの入力ファイル名については、 構成済みパラメーター セクション、map.input.file変数(マップが読み込んでいるファイル名)は、ジョブを完了させるためのものです。ただし、次のことに注意してください。

注:ストリーミングジョブの実行中に、「マップされた」パラメータの名前が変換されます。ドット(。)は下線(_)になります。たとえば、mapred.job.idはmapred_job_idになり、mapred.jarはmapred_jarになります。ストリーミングジョブのマッパー/リデューサーで値を取得するには、パラメーター名にアンダースコアを使用します。


たとえば、Pythonを使用している場合、次の行をマッパーファイルに追加できます。

import os
file_name = os.getenv('map_input_file')
print file_name
10
YaOzI

通常のInputFormatを使用している場合、マッパーでこれを使用します。

InputSplit is = context.getInputSplit();
Method method = is.getClass().getMethod("getInputSplit");
method.setAccessible(true);
FileSplit fileSplit = (FileSplit) method.invoke(is);
String currentFileName = fileSplit.getPath().getName()

CombineFileInputFormatを使用している場合、いくつかの小さなファイルを1つの比較的大きなファイルに結合するため、異なるアプローチです(構成によって異なります)。マッパーとRecordReaderは両方とも同じJVMで実行されるため、実行時にデータを渡すことができます。独自のCombineFileRecordReaderWrapperを実装し、次のようにする必要があります。

public class MyCombineFileRecordReaderWrapper<K, V> extends RecordReader<K, V>{
...
private static String mCurrentFilePath;
...
public void initialize(InputSplit combineSplit , TaskAttemptContext context) throws IOException, InterruptedException {
        assert this.fileSplitIsValid(context);
        mCurrentFilePath = mFileSplit.getPath().toString();
        this.mDelegate.initialize(this.mFileSplit, context);
    }
...
public static String getCurrentFilePath() {
        return mCurrentFilePath;
    }
...

次に、マッパーでこれを使用します。

String currentFileName = MyCombineFileRecordReaderWrapper.getCurrentFilePath()

私が助けたことを願っています:-)

4
Nir Hedvat

Hadoop 2.4以降ではold apiを使用してこのメ​​ソッドがnull値を生成することに注意してください

String fileName = new String();
public void configure(JobConf job)
{
   fileName = job.get("map.input.file");
}

または、マップ関数に渡されたReporterオブジェクトを使用してInputSplitを取得し、FileSplitにキャストしてファイル名を取得できます。

public void map(LongWritable offset, Text record,
        OutputCollector<NullWritable, Text> out, Reporter rptr)
        throws IOException {

    FileSplit fsplit = (FileSplit) rptr.getInputSplit();
    String inputFileName = fsplit.getPath().getName();
    ....
}
3
Karl Moad

最初に型キャストによってInputSplitに変換し、次にFileSplitにキャストする必要があります。

例:

InputSplit inputSplit= (InputSplit)context.getInputSplit();
Path filePath = ((FileSplit) inputSplit).getPath();
String filePathString = ((FileSplit) context.getInputSplit()).getPath().toString()
1

これは私を助けました:

String fileName = ((org.Apache.hadoop.mapreduce.lib.input.FileSplit) context.getInputSplit()).getPath().getName();
1

FileSplitインスタンスが複数の入力に対して返されなくなるため、FileSplitへのキャストを推奨する回答は機能しなくなります(したがって、ClassCastExceptionを取得します)。代わりに、_org.Apache.hadoop.mapreduce.lib.input.TaggedInputSplit_インスタンスが返されます。残念ながら、TaggedInputSplitクラスはリフレクションを使用しないとアクセスできません。そのために、私がこのために作成したユーティリティクラスを次に示します。ただやる:

_Path path = MapperUtils.getPath(context.getInputSplit());
_

Mapper.setup(Context context)メソッドで。

MapperUtilsクラスのソースコードは次のとおりです。

_import org.Apache.hadoop.fs.Path;
import org.Apache.hadoop.mapreduce.InputSplit;
import org.Apache.hadoop.mapreduce.lib.input.FileSplit;

import Java.lang.invoke.MethodHandle;
import Java.lang.invoke.MethodHandles;
import Java.lang.invoke.MethodType;
import Java.lang.reflect.Method;
import Java.util.Optional;

public class MapperUtils {

    public static Path getPath(InputSplit split) {
        return getFileSplit(split).map(FileSplit::getPath).orElseThrow(() -> 
            new AssertionError("cannot find path from split " + split.getClass()));
    }

    public static Optional<FileSplit> getFileSplit(InputSplit split) {
        if (split instanceof FileSplit) {
            return Optional.of((FileSplit)split);
        } else if (TaggedInputSplit.clazz.isInstance(split)) {
            return getFileSplit(TaggedInputSplit.getInputSplit(split));
        } else {
            return Optional.empty();
        }
    }

    private static final class TaggedInputSplit {
        private static final Class<?> clazz;
        private static final MethodHandle method;

        static {
            try {
                clazz = Class.forName("org.Apache.hadoop.mapreduce.lib.input.TaggedInputSplit");
                Method m = clazz.getDeclaredMethod("getInputSplit");
                m.setAccessible(true);
                method = MethodHandles.lookup().unreflect(m).asType(
                    MethodType.methodType(InputSplit.class, InputSplit.class));
            } catch (ReflectiveOperationException e) {
                throw new AssertionError(e);
            }
        }

        static InputSplit getInputSplit(InputSplit o) {
            try {
                return (InputSplit) method.invokeExact(o);
            } catch (Throwable e) {
                throw new AssertionError(e);
            }
        }
    }

    private MapperUtils() { }

}
_
1
Hans Brende

ために org.Apache.hadood.mapredパッケージマップ関数のシグネチャは次のとおりである必要があります。

map(Object, Object, OutputCollector, Reporter) 

したがって、マップ関数内でファイル名を取得するには、次のようにReporterオブジェクトを使用できます。

String fileName = ((FileSplit) reporter.getInputSplit()).getPath().getName();
0
Tulio Braga
package com.foo.bar;

import org.Apache.hadoop.fs.Path;
import org.Apache.hadoop.mapreduce.InputSplit;
import org.Apache.hadoop.mapreduce.lib.input.FileSplit;

import Java.lang.invoke.MethodHandle;
import Java.lang.invoke.MethodHandles;
import Java.lang.invoke.MethodType;
import Java.lang.reflect.Method;

public class MapperUtils {

    public static Path getPath(InputSplit split) {
        FileSplit fileSplit = getFileSplit(split);
        if (fileSplit == null) {
            throw new AssertionError("cannot find path from split " + split.getClass());
        } else {
            return fileSplit.getPath();
        }
    }

    public static FileSplit getFileSplit(InputSplit split) {
        if (split instanceof FileSplit) {
            return (FileSplit)split;
        } else if (TaggedInputSplit.clazz.isInstance(split)) {
            return getFileSplit(TaggedInputSplit.getInputSplit(split));
        } else {
            return null;
        }
    }

    private static final class TaggedInputSplit {
        private static final Class<?> clazz;
        private static final MethodHandle method;

        static {
            try {
                clazz = Class.forName("org.Apache.hadoop.mapreduce.lib.input.TaggedInputSplit");
                Method m = clazz.getDeclaredMethod("getInputSplit");
                m.setAccessible(true);
                method = MethodHandles.lookup().unreflect(m).asType(
                    MethodType.methodType(InputSplit.class, InputSplit.class));
            } catch (ReflectiveOperationException e) {
                throw new AssertionError(e);
            }
        }

        static InputSplit getInputSplit(InputSplit o) {
            try {
                return (InputSplit) method.invokeExact(o);
            } catch (Throwable e) {
                throw new AssertionError(e);
            }
        }
    }

    private MapperUtils() { }

}

Hans-brendeが提供するコードをJava 7で書き直しました。動作しました。しかし、次の問題があります。

File Input Format Counters Bytes Read = 0 MultipleInputsを使用している場合、Bytes Readはゼロです。

0
nimbus_debug