Python）で同時にログファイルを書き込む多くのスレッド

Question

多くのコンピューターから同時にWMI情報を取得し、この情報をテキストファイルに書き込むスクリプトを作成しています。

f = open("results.txt", 'w+') ## to clean the results file before the start def filesize(asset): f = open("results.txt", 'a+') c = wmi.WMI(asset) wql = 'SELECT FileSize,Name FROM CIM_DataFile where (Drive="D:" OR Drive="E:") and Caption like "%file%"' for item in c.query(wql): print >> f, item.Name.split("\")[2].strip().upper(), str(item.FileSize) class myThread (threading.Thread): def __init__(self,name): threading.Thread.__init__(self) self.name = name def run(self): pythoncom.CoInitialize () print "Starting " + self.name filesize(self.name) print "Exiting " + self.name thread1 = myThread('10.24.2.31') thread2 = myThread('10.24.2.32') thread3 = myThread('10.24.2.33') thread4 = myThread('10.24.2.34') thread1.start() thread2.start() thread3.start() thread4.start()

問題は、すべてのスレッドが同時に書き込むことです。

Martin Konecny · Accepted Answer

独自のロックメカニズムを作成するだけで、1つのスレッドだけがファイルに書き込むことができます。

_import threading lock = threading.Lock() def write_to_file(f, text, file_size): lock.acquire() # thread blocks at this line until it can obtain lock # in this section, only one thread can be present at a time. print >> f, text, file_size lock.release() def filesize(asset): f = open("results.txt", 'a+') c = wmi.WMI(asset) wql = 'SELECT FileSize,Name FROM CIM_DataFile where (Drive="D:" OR Drive="E:") and Caption like "%file%"' for item in c.query(wql): write_to_file(f, item.Name.split("\")[2].strip().upper(), str(item.FileSize)) _

Forループ全体の周りにロックを配置することを検討することをお勧めしますfor item in c.query(wql):は、ロックを解放する前に各スレッドがより大きな作業を実行できるようにします。

Lukas Graf · Answer

printはスレッドセーフではありません。代わりに logging モジュールを使用してください（これは）：

_import logging import threading import time FORMAT = '[%(levelname)s] (%(threadName)-10s) %(message)s' logging.basicConfig(level=logging.DEBUG, format=FORMAT) file_handler = logging.FileHandler('results.log') file_handler.setFormatter(logging.Formatter(FORMAT)) logging.getLogger().addHandler(file_handler) def worker(): logging.info('Starting') time.sleep(2) logging.info('Exiting') t1 = threading.Thread(target=worker) t2 = threading.Thread(target=worker) t1.start() t2.start() _

出力（および_results.log_の内容）：

_[INFO] (Thread-1 ) Starting [INFO] (Thread-2 ) Starting [INFO] (Thread-1 ) Exiting [INFO] (Thread-2 ) Exiting _

デフォルト名（_Thread-n_）を使用する代わりに、nameキーワード引数を使用して独自の名前を設定できます。これにより、%(threadName)フォーマットディレクティブが使用します。

_t = threading.Thread(name="My worker thread", target=worker) _

（この例は、 threadingモジュールに関するDoug Hellmannの優れた記事の例を基にしています。

johntellsall · Answer

別の解決策として、Poolを使用してデータを計算し、それを親プロセスに返します。次に、この親はすべてのデータをファイルに書き込みます。一度にファイルに書き込むprocは1つだけなので、追加のロックは必要ありません。

以下では、threadsではなくprocessesのプールを使用していることに注意してください。これにより、threadingモジュールを使用して何かをまとめるよりも、コードがはるかに単純で簡単になります。（ThreadPoolオブジェクトがありますが、文書化されていません。）

ソース

import glob, os, time from multiprocessing import Pool def filesize(path): time.sleep(0.1) return (path, os.path.getsize(path)) paths = glob.glob('*.py') pool = Pool() # default: proc per CPU with open("results.txt", 'w+') as dataf: for (apath, asize) in pool.imap_unordered( filesize, paths, ): print >>dataf, apath,asize

results.txtに出力

zwrap.py 122 usercustomize.py 38 tpending.py 2345 msimple4.py 385 parse2.py 499