web-dev-qa-db-ja.com

巨大なテキストファイルをpython

私は巨大なテキストファイル(〜1GB)を持っていますが、残念なことに、私が使用するテキストエディターはそのような大きなファイルを読み取れません。ただし、2つまたは3つの部分に分割できる場合は問題ありません。そのため、演習としてpythonでプログラムを記述したいと思いました。

私がプログラムにしたいことは、ファイルのサイズを見つけ、その数を部分に分割し、各部分について、チャンクでそのポイントまで読み取り、filename。nnnに書き込むことです。出力ファイル、次に次の改行まで読み取り、それを書き込んでから、出力ファイルを閉じます。もちろん、最後の出力ファイルは入力ファイルの最後にコピーされるだけです。

ファイルシステムに関連する主要な部分であるファイルサイズ、チャンクでの読み取りと書き込み、改行までの読み取りについて教えてください。

私はこのコードをテストファーストで作成するので、ワンライナーでない限り、完全な答えを返す必要はありません;-)

23
quamrana

ファイルサイズについてはos.stat()を、file.readlines([sizehint])をチェックしてください。これらの2つの関数は、読み取り部分に必要なすべてである必要があります。うまくいけば、書き込みを行う方法を知っています。

15
Kamil Kisiel

linuxには分割コマンドがあります

split -l 100000 file.txt

100,000行サイズの等しいファイルに分割されます

36
James

代替方法として、ロギングライブラリを使用します。

>>> import logging.handlers
>>> log = logging.getLogger()
>>> fh = logging.handlers.RotatingFileHandler("D://filename.txt", 
     maxBytes=2**20*100, backupCount=100) 
# 100 MB each, up to a maximum of 100 files
>>> log.addHandler(fh)
>>> log.setLevel(logging.INFO)
>>> f = open("D://biglog.txt")
>>> while True:
...     log.info(f.readline().strip())

ファイルは次のように表示されます。

filename.txt(ファイルの終わり)
ファイル名.txt.1
ファイル名.txt.2
...
filename.txt.10(ファイルの先頭)

これは、巨大なログファイルをRotatingFileHandler実装と一致させるための迅速かつ簡単な方法です。

9
Alex L

このジェネレーターメソッドは、メモリを消費することなくラインのスライスを取得する(遅い)方法です。

import itertools

def slicefile(filename, start, end):
    lines = open(filename)
    return itertools.islice(lines, start, end)

out = open("/blah.txt", "w")
for line in slicefile("/python27/readme.txt", 10, 15):
    out.write(line)
5
Ryan Ginstrom

Ryan Ginstromの答え は正しいですが、必要以上に時間がかかります(すでに述べたように)。次に、開いているファイル記述子を繰り返し処理することにより、itertools.isliceへの複数の呼び出しを回避する方法を示します。

def splitfile(infilepath, chunksize):
    fname, ext = infilepath.rsplit('.',1)
    i = 0
    written = False
    with open(infilepath) as infile:
        while True:
            outfilepath = "{}{}.{}".format(fname, i, ext)
            with open(outfilepath, 'w') as outfile:
                for line in (infile.readline() for _ in range(chunksize)):
                    outfile.write(line)
                written = bool(line)
            if not written:
                break
            i += 1
4
inspectorG4dget

seek()mmap() を忘れずにファイルにランダムにアクセスしてください。

def getSomeChunk(filename, start, len):
    fobj = open(filename, 'r+b')
    m = mmap.mmap(fobj.fileno(), 0)
    return m[start:start+len]
4
Joe Koberg

現在、任意のサイズのファイルをチャンクに分割するために使用できるpypiモジュールがあります。これをチェック

https://pypi.org/project/filesplit/

4
Ram

wcおよびsplit(それぞれのマンページを参照)を使用して、目的の効果を得ることができます。 bash内:

split -dl$((`wc -l 'filename'|sed 's/ .*$//'` / 3 + 1)) filename filename-chunk.

filename-chunk.00からfilename-chunk.02という名前の同じ行数の3つの部分を生成します(もちろん、最後に丸め誤差があります)。

3
Svante

使用法-split.pyファイル名splitsizeinkb

import os
import sys

def getfilesize(filename):
   with open(filename,"rb") as fr:
       fr.seek(0,2) # move to end of the file
       size=fr.tell()
       print("getfilesize: size: %s" % size)
       return fr.tell()

def splitfile(filename, splitsize):
   # Open original file in read only mode
   if not os.path.isfile(filename):
       print("No such file as: \"%s\"" % filename)
       return

   filesize=getfilesize(filename)
   with open(filename,"rb") as fr:
    counter=1
    orginalfilename = filename.split(".")
    readlimit = 5000 #read 5kb at a time
    n_splits = filesize//splitsize
    print("splitfile: No of splits required: %s" % str(n_splits))
    for i in range(n_splits+1):
        chunks_count = int(splitsize)//int(readlimit)
        data_5kb = fr.read(readlimit) # read
        # Create split files
        print("chunks_count: %d" % chunks_count)
        with open(orginalfilename[0]+"_{id}.".format(id=str(counter))+orginalfilename[1],"ab") as fw:
            fw.seek(0) 
            fw.truncate()# truncate original if present
            while data_5kb:                
                fw.write(data_5kb)
                if chunks_count:
                    chunks_count-=1
                    data_5kb = fr.read(readlimit)
                else: break            
        counter+=1 

if __name__ == "__main__":
   if len(sys.argv) < 3: print("Filename or splitsize not provided: Usage:     filesplit.py filename splitsizeinkb ")
   else:
       filesize = int(sys.argv[2]) * 1000 #make into kb
       filename = sys.argv[1]
       splitfile(filename, filesize)
2
Mudit Verma

プログラムを作成しましたが、問題なく動作するようです。だから私を始めてくれたKamil Kisielに感謝します。
(FileSizeParts()はここに示されていない関数であることに注意してください)
後で、バイナリの読み取りを行うバージョンを実行して、それがより速いかどうかを確認することがあります。

def Split(inputFile,numParts,outputName):
    fileSize=os.stat(inputFile).st_size
    parts=FileSizeParts(fileSize,numParts)
    openInputFile = open(inputFile, 'r')
    outPart=1
    for part in parts:
        if openInputFile.tell()<fileSize:
            fullOutputName=outputName+os.extsep+str(outPart)
            outPart+=1
            openOutputFile=open(fullOutputName,'w')
            openOutputFile.writelines(openInputFile.readlines(part))
            openOutputFile.close()
    openInputFile.close()
    return outPart-1
2
quamrana

これは私のために働いた

import os

fil = "inputfile"
outfil = "outputfile"

f = open(fil,'r')

numbits = 1000000000

for i in range(0,os.stat(fil).st_size/numbits+1):
    o = open(outfil+str(i),'w')
    segment = f.readlines(numbits)
    for c in range(0,len(segment)):
        o.write(segment[c]+"\n")
    o.close()
1
Ryan

これは、subprocessを使用して大きなファイルを分割するために使用できるpythonスクリプトです。

_"""
Splits the file into the same directory and
deletes the original file
"""

import subprocess
import sys
import os

SPLIT_FILE_CHUNK_SIZE = '5000'
SPLIT_PREFIX_LENGTH = '2'  # subprocess expects a string, i.e. 2 = aa, ab, ac etc..

if __name__ == "__main__":

    file_path = sys.argv[1]
    # i.e. split -a 2 -l 5000 t/some_file.txt ~/tmp/t/
    subprocess.call(["split", "-a", SPLIT_PREFIX_LENGTH, "-l", SPLIT_FILE_CHUNK_SIZE, file_path,
                     os.path.dirname(file_path) + '/'])

    # Remove the original file once done splitting
    try:
        os.remove(file_path)
    except OSError:
        pass
_

外部から呼び出すことができます:

_import os
fs_result = os.system("python file_splitter.py {}".format(local_file_path))
_

subprocessをインポートして、プログラムで直接実行することもできます。

このアプローチの問題は、メモリ使用量が多いことです。subprocessは、プロセスと同じサイズのメモリフットプリントでフォークを作成します。プロセスメモリがすでに重い場合は、実行時に2倍になります。 _os.system_でも同じです。

これは別の純粋なpythonこれを行う方法ですが、巨大なファイルではテストしていませんが、速度は遅くなりますが、メモリに依存します。

_CHUNK_SIZE = 5000

def yield_csv_rows(reader, chunk_size):
    """
    Opens file to ingest, reads each line to return list of rows
    Expects the header is already removed
    Replacement for ingest_csv
    :param reader: dictReader
    :param chunk_size: int, chunk size
    """
    chunk = []
    for i, row in enumerate(reader):
        if i % chunk_size == 0 and i > 0:
            yield chunk
            del chunk[:]
        chunk.append(row)
    yield chunk

with open(local_file_path, 'rb') as f:
    f.readline().strip().replace('"', '')
    reader = unicodecsv.DictReader(f, fieldnames=header.split(','), delimiter=',', quotechar='"')
    chunks = yield_csv_rows(reader, CHUNK_SIZE)
    for chunk in chunks:
        if not chunk:
            break
        # Do something with your chunk here
_

readlines()を使用した別の例を次に示します。

_"""
Simple example using readlines()
where the 'file' is generated via:
seq 10000 > file
"""
CHUNK_SIZE = 5


def yield_rows(reader, chunk_size):
    """
    Yield row chunks
    """
    chunk = []
    for i, row in enumerate(reader):
        if i % chunk_size == 0 and i > 0:
            yield chunk
            del chunk[:]
        chunk.append(row)
    yield chunk


def batch_operation(data):
    for item in data:
        print(item)


with open('file', 'r') as f:
    chunks = yield_rows(f.readlines(), CHUNK_SIZE)
    for _chunk in chunks:
        batch_operation(_chunk)
_
0
radtek

インポートのファイルサイズの上限は8MBであり、受信するファイルがはるかに大きいため、Dynamics CRMにインポートするためにcsvファイルを分割する必要がありました。このプログラムを使用すると、ユーザーはFileNamesとLinesPerFileを入力し、指定されたファイルを要求された行数に分割できます。それがどれほど速く機能するか私は信じられない!

# user input FileNames and LinesPerFile
FileCount = 1
FileNames = []
while True:
    FileName = raw_input('File Name ' + str(FileCount) + ' (enter "Done" after last File):')
    FileCount = FileCount + 1
    if FileName == 'Done':
        break
    else:
        FileNames.append(FileName)
LinesPerFile = raw_input('Lines Per File:')
LinesPerFile = int(LinesPerFile)

for FileName in FileNames:
    File = open(FileName)

    # get Header row
    for Line in File:
        Header = Line
        break

    FileCount = 0
    Linecount = 1
    for Line in File:

        #skip Header in File
        if Line == Header:
            continue

        #create NewFile with Header every [LinesPerFile] Lines
        if Linecount % LinesPerFile == 1:
            FileCount = FileCount + 1
            NewFileName = FileName[:FileName.find('.')] + '-Part' + str(FileCount) + FileName[FileName.find('.'):]
            NewFile = open(NewFileName,'w')
            NewFile.write(Header)

        NewFile.write(Line)
        Linecount = Linecount + 1

    NewFile.close()
0
Ron Smith

または、python wcのバージョンと分割:

lines = 0
for l in open(filename): lines += 1

次に、最初のlines/3を1つのファイルに読み取り、次のlines/3を別のファイルに読み取るコードなど。

0
Claudiu