web-dev-qa-db-ja.com

Pythonでタブ区切りファイルを解析する

Pythonでタブ区切りファイルを解析しようとしています。この場合、行の先頭からk個のタブを離れた位置に配置し、k番目の配列に配置する必要があります。

行ごとに読み取り、単純なソリューションが実行するすべての明らかな処理を行う以外に、これを行うための組み込み関数、またはより良い方法がありますか?

28
Bob

csvモジュール を使用して、タブ区切り値ファイルを簡単に解析できます。

_import csv

with open("tab-separated-values") as tsv:
    for line in csv.reader(tsv, dialect="Excel-tab"): #You can also use delimiter="\t" rather than giving a dialect.
        ... 
_

ここで、lineは、各反復の現在の行の値のリストです。

編集:以下に示すように、行ではなく列ごとに読み取りたい場合は、Zip()ビルトインを使用するのが最善です。

_with open("tab-separated-values") as tsv:
    for column in Zip(*[line for line in csv.reader(tsv, dialect="Excel-tab")]):
        ...
_
54
Gareth Latty

現在の答えのどれも、あなたがあなたが望むと言ったことを本当に実行するとは思わない。 (訂正:@Gareth Latty/@Lattywareは、私の回答を「編集」として最後に組み込んだことがわかりました。)

とにかく、ここに私の見解があります:

入力ファイルでタブで区切られた値は次のとおりです。

1   2   3   4   5
6   7   8   9   10
11  12  13  14  15
16  17  18  19  20

それからこれ:

with open("tab-separated-values.txt") as inp:
    print( list(Zip(*(line.strip().split('\t') for line in inp))) )

以下を生成します。

[('1', '6', '11', '16'), 
 ('2', '7', '12', '17'), 
 ('3', '8', '13', '18'), 
 ('4', '9', '14', '19'), 
 ('5', '10', '15', '20')]

ご覧のとおり、各行のk番目の要素をk番目の配列に入れます。

11
martineau

このような:

>>> s='1\t2\t3\t4\t5'
>>> [x for x in s.split('\t')]
['1', '2', '3', '4', '5']

ファイルの場合:

# create test file:
>>> with open('tabs.txt','w') as o:
...    s='\n'.join(['\t'.join(map(str,range(i,i+10))) for i in [0,10,20,30]])
...    print >>o, s

#read that file:
>>> with open('tabs.txt','r') as f:
...    LoL=[x.strip().split('\t') for x in f]
... 
>>> LoL
[['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'], 
 ['10', '11', '12', '13', '14', '15', '16', '17', '18', '19'], 
 ['20', '21', '22', '23', '24', '25', '26', '27', '28', '29'], 
 ['30', '31', '32', '33', '34', '35', '36', '37', '38', '39']]
>>> LoL[2][3]
23

入力を転置したい場合:

>>> with open('tabs.txt','r') as f:
...    LoT=Zip(*(line.strip().split('\t') for line in f))
... 
>>> LoT[2][3]
'32'

または(より良い)デフォルトの配布でcsvモジュールを使用...

3
dawg