マルチプロセッシングPool.map（）を使用する場合、<type 'instancemethod'>をpickleできません。

Question

multiprocessingのPool.map()関数を使用して作業を同時に分割しようとしています。次のコードを使用すると、正常に機能します。

import multiprocessing def f(x): return x*x def go(): pool = multiprocessing.Pool(processes=4) print pool.map(f, range(10)) if __name__== '__main__' : go()

ただし、よりオブジェクト指向のアプローチで使用すると、機能しません。表示されるエラーメッセージは次のとおりです。

PicklingError: Can't pickle <type 'instancemethod'>: attribute lookup __builtin__.instancemethod failed

これは、次が私のメインプログラムである場合に発生します。

import someClass if __name__== '__main__' : sc = someClass.someClass() sc.go()

以下は私のsomeClassクラスです。

import multiprocessing class someClass(object): def __init__(self): pass def f(self, x): return x*x def go(self): pool = multiprocessing.Pool(processes=4) print pool.map(self.f, range(10))

誰が問題が何であるか、またはそれを回避する簡単な方法を知っていますか？

Alex Martelli · Accepted Answer

問題は、マルチプロセッシングがプロセスを処理するためにそれらをピクルスする必要があり、バインドされたメソッドがピクル可能でないことです。回避策（「簡単」と見なすかどうかに関係なく、-）は、インフラストラクチャをプログラムに追加して、そのようなメソッドをピクルできるようにし、 copy_reg 標準ライブラリメソッドで登録します。

たとえば、このスレッド（スレッドの終わりに向かって）へのSteven Bethardの貢献は、copy_regを介したメソッドのpickle/unpicklingを可能にする1つの完全に実行可能なアプローチを示しています。

Mike McKerns · Answer

標準ライブラリの外部にジャンプしない限り、マルチプロセッシングと酸洗は壊れて制限されるため、これらのソリューションはすべていです。

multiprocessingと呼ばれるpathos.multiprocesssingのフォークを使用する場合、マルチプロセッシングのmap関数でクラスとクラスメソッドを直接使用できます。これは、dillまたはpickleの代わりにcPickleが使用され、dillがPythonのほとんどすべてをシリアル化できるためです。

pathos.multiprocessingは非同期マップ関数も提供します...そして、複数の引数を持つmap関数（例：map(math.pow, [1,2,3], [4,5,6])）

参照： multiprocessingとdillが一緒にできることは何ですか？

および： http://matthewrocklin.com/blog/work/2013/12/05/Parallelism-and-Serialization/

>>> import pathos.pools as pp >>> p = pp.ProcessPool(4) >>> >>> def add(x,y): ... return x+y ... >>> x = [0,1,2,3] >>> y = [4,5,6,7] >>> >>> p.map(add, x, y) [4, 6, 8, 10] >>> >>> class Test(object): ... def plus(self, x, y): ... return x+y ... >>> t = Test() >>> >>> p.map(Test.plus, [t]*4, x, y) [4, 6, 8, 10] >>> >>> p.map(t.plus, x, y) [4, 6, 8, 10]

そして、明確にするために、そもそもやりたいことを正確に行うことができます。必要であれば、インタープリターから行うこともできます。

>>> import pathos.pools as pp >>> class someClass(object): ... def __init__(self): ... pass ... def f(self, x): ... return x*x ... def go(self): ... pool = pp.ProcessPool(4) ... print pool.map(self.f, range(10)) ... >>> sc = someClass() >>> sc.go() [0, 1, 4, 9, 16, 25, 36, 49, 64, 81] >>>

ここでコードを取得します： https://github.com/uqfoundation/pathos

dorvak · Answer

__call__()を呼び出すsomeClass()内でsomeClass.go()メソッドを定義して、someClass()のインスタンスをプールに渡すこともできます。このオブジェクトはピクル可能であり、（私にとって）うまく機能します...

Eric H. · Answer

ただし、Steven Bethardのソリューションに対するいくつかの制限：

クラスメソッドを関数として登録すると、メソッド処理が終了するたびにクラスのデストラクタが驚くほど呼び出されます。したがって、メソッドをn回呼び出すクラスのインスタンスが1つある場合、2回の実行の間にメンバーが消えて、malloc: *** error for object 0x...: pointer being freed was not allocated（たとえば、メンバーファイルを開く）またはpure virtual method called, terminate called without an active exception（つまり私が使用したメンバーオブジェクトの寿命は、思ったよりも短かったです）。プールサイズよりも大きいnを扱うときにこれを取得しました。以下に短い例を示します。

from multiprocessing import Pool, cpu_count from multiprocessing.pool import ApplyResult # --------- see Stenven's solution above ------------- from copy_reg import pickle from types import MethodType def _pickle_method(method): func_name = method.im_func.__name__ obj = method.im_self cls = method.im_class return _unpickle_method, (func_name, obj, cls) def _unpickle_method(func_name, obj, cls): for cls in cls.mro(): try: func = cls.__dict__[func_name] except KeyError: pass else: break return func.__get__(obj, cls) class Myclass(object): def __init__(self, nobj, workers=cpu_count()): print "Constructor ..." # multi-processing pool = Pool(processes=workers) async_results = [ pool.apply_async(self.process_obj, (i,)) for i in range(nobj) ] pool.close() # waiting for all results map(ApplyResult.wait, async_results) lst_results=[r.get() for r in async_results] print lst_results def __del__(self): print "... Destructor" def process_obj(self, index): print "object %d" % index return "results" pickle(MethodType, _pickle_method, _unpickle_method) Myclass(nobj=8, workers=3) # problem !!! the destructor is called nobj times (instead of once)

出力：

Constructor ... object 0 object 1 object 2 ... Destructor object 3 ... Destructor object 4 ... Destructor object 5 ... Destructor object 6 ... Destructor object 7 ... Destructor ... Destructor ... Destructor ['results', 'results', 'results', 'results', 'results', 'results', 'results', 'results'] ... Destructor

[None、...]は結果から読み取られるため、__call__メソッドはそれほど等価ではありません。

from multiprocessing import Pool, cpu_count from multiprocessing.pool import ApplyResult class Myclass(object): def __init__(self, nobj, workers=cpu_count()): print "Constructor ..." # multiprocessing pool = Pool(processes=workers) async_results = [ pool.apply_async(self, (i,)) for i in range(nobj) ] pool.close() # waiting for all results map(ApplyResult.wait, async_results) lst_results=[r.get() for r in async_results] print lst_results def __call__(self, i): self.process_obj(i) def __del__(self): print "... Destructor" def process_obj(self, i): print "obj %d" % i return "result" Myclass(nobj=8, workers=3) # problem !!! the destructor is called nobj times (instead of once), # **and** results are empty !

したがって、どちらの方法も満足のいくものではありません...

torek · Answer

使用できる別のショートカットがありますが、クラスインスタンスの内容によっては効率が悪い場合があります。

誰もが言ったように、問題はmultiprocessingコードが、開始したサブプロセスに送信するものをピクルスする必要があり、ピッカーがインスタンスメソッドを実行しないことです。

ただし、instance-methodを送信する代わりに、実際のクラスインスタンスと呼び出す関数の名前を通常の関数に送信して、getattrを使用してinstance-methodを呼び出し、バインドを作成できます。 Poolサブプロセスのメソッド。これは__call__メソッドの定義に似ていますが、複数のメンバー関数を呼び出すことができる点が異なります。

彼の答えから@EricH。のコードを盗み、少し注釈を付けました（すべての名前の変更などを再入力したため、何らかの理由でカットアンドペーストより簡単に見えました:-)）、すべての魔法の説明：

import multiprocessing import os def call_it(instance, name, args=(), kwargs=None): "indirect caller for instance methods and multiprocessing" if kwargs is None: kwargs = {} return getattr(instance, name)(*args, **kwargs) class Klass(object): def __init__(self, nobj, workers=multiprocessing.cpu_count()): print "Constructor (in pid=%d)..." % os.getpid() self.count = 1 pool = multiprocessing.Pool(processes = workers) async_results = [pool.apply_async(call_it, args = (self, 'process_obj', (i,))) for i in range(nobj)] pool.close() map(multiprocessing.pool.ApplyResult.wait, async_results) lst_results = [r.get() for r in async_results] print lst_results def __del__(self): self.count -= 1 print "... Destructor (in pid=%d) count=%d" % (os.getpid(), self.count) def process_obj(self, index): print "object %d" % index return "results" Klass(nobj=8, workers=3)

出力は、実際には、コンストラクターが元のpidで1回呼び出され、デストラクタが9回呼び出されることを示しています（作成された各コピーに対して1回=必要に応じてpool-worker-processごとに2または3回、さらに元の処理する）。この場合のように、デフォルトのピッカーはインスタンス全体のコピーを作成し、（半）密かに再作成します。この場合、次のようにします。

obj = object.__new__(Klass) obj.__dict__.update({'count':1})

-そのため、3つのワーカープロセスでデストラクタが8回呼び出されても、毎回1から0にカウントダウンしますが、もちろんこの方法で問題が発生する可能性があります。必要に応じて、独自の__setstate__を提供できます。

 def __setstate__(self, adict): self.count = adict['count']

この場合、たとえば。

parisjohn · Answer

__call__()を呼び出すsomeClass()内でsomeClass.go()メソッドを定義して、someClass()のインスタンスをプールに渡すこともできます。このオブジェクトはピクル可能であり、（私にとって）うまく機能します...

class someClass(object): def __init__(self): pass def f(self, x): return x*x def go(self): p = Pool(4) sc = p.map(self, range(4)) print sc def __call__(self, x): return self.f(x) sc = someClass() sc.go()

neobot · Answer

parisjohn からの解決策は私と一緒にうまく機能します。さらに、コードは簡潔で理解しやすいように見えます。私の場合、Poolを使用して呼び出す関数がいくつかあるため、パリジョンのコードを少し下に変更しました。複数の関数を呼び出すことができるようにcallを作成し、関数名はgo()から引数dictで渡されます。

from multiprocessing import Pool class someClass(object): def __init__(self): pass def f(self, x): return x*x def g(self, x): return x*x+1 def go(self): p = Pool(4) sc = p.map(self, [{"func": "f", "v": 1}, {"func": "g", "v": 2}]) print sc def __call__(self, x): if x["func"]=="f": return self.f(x["v"]) if x["func"]=="g": return self.g(x["v"]) sc = someClass() sc.go()

0script0 · Answer

なぜ個別の関数を使用しないのですか？

def func(*args, **kwargs): return inst.method(args, kwargs) print pool.map(func, arr)

George · Answer

この同じ問題にぶつかりましたが、プロセス間でこれらのオブジェクトを移動するために使用できるJSONエンコーダーがあることがわかりました。

from pyVmomi.VmomiSupport import VmomiJSONEncoder

これを使用してリストを作成します：jsonSerialized= json.dumps(pfVmomiObj, cls=VmomiJSONEncoder)

次に、マップされた関数で、これを使用してオブジェクトを回復します：pfVmomiObj = json.loads(jsonSerialized)

David Parks · Answer

これに対する些細な解決策は、multiprocessing.dummyの使用に切り替えることです。これは、マルチプロセッシングインターフェイスのスレッドベースの実装であり、Python 2.7ではこの問題を抱えていないようです。ここではあまり経験がありませんが、この簡単なインポートの変更により、クラスメソッドでapply_asyncを呼び出すことができました。

multiprocessing.dummyに関するいくつかの優れたリソース：

https://docs.python.org/2/library/multiprocessing.html#module-multiprocessing.dummy

http://chriskiehl.com/article/parallelism-in-one-line/

multiprocessing.dummyに関するいくつかの優れたリソース：

https://docs.python.org/2/library/multiprocessing.html#module-multiprocessing.dummy

http://chriskiehl.com/article/parallelism-in-one-line/

mhh · Answer

someClass.fがクラスからデータを継承せず、クラスに何もアタッチしないこの単純なケースでは、可能な解決策はfを分離することです。

import multiprocessing def f(x): return x*x class someClass(object): def __init__(self): pass def go(self): pool = multiprocessing.Pool(processes=4) print pool.map(f, range(10))

rachid el kedmiri · Answer

更新：この記事の執筆時点では、namedTuplesは選択可能です（python 2.7以降）

ここでの問題は、子プロセスがオブジェクトのクラス（この場合はクラスP）をインポートできないことです。マルチモデルプロジェクトの場合、子プロセスが使用される場所であればどこでもクラスPをインポートできる必要があります。

簡単な回避策は、globals（）に影響を与えてインポート可能にすることです。

globals()["P"] = P