awk / sedを使用して特定のフィールドから文字列を削除する

Question

次のようなファイル（> 80,000行）があります。

chr1 GTF2GFF chromosome 1 249213345 . . . ID=chr1;Name=chr1 chr1 GTF2GFF gene 11874 14408 . + . ID=DDX11L1;Note=unknown;Name=DDX11L1 chr1 GTF2GFF exon 11874 12227 . + . Parent=NR_046018_1 chr1 GTF2GFF exon 12613 12721 . + . Parent=NR_046018_1 chr1 GTF2GFF exon 13221 14408 . + . Parent=NR_046018_1 chr1 GTF2GFF gene 14362 29370 . - . ID=WASH7P;Note=unknown;Name=WASH7P chr1 GTF2GFF exon 14362 14829 . - . Parent=NR_024540 chr1 GTF2GFF exon 14970 15038 . - . Parent=NR_024540 chr1 GTF2GFF exon 15796 15947 . - . Parent=NR_024540 chr1 GTF2GFF exon 16607 16765 . - . Parent=NR_024540 chr1 GTF2GFF exon 16858 17055 . - . Parent=NR_024540 chr1 GTF2GFF exon 17233 17368 . - . Parent=NR_024540 chr1 GTF2GFF exon 17606 17742 . - . Parent=NR_024540 chr1 GTF2GFF exon 17915 18061 . - . Parent=NR_024540 chr1 GTF2GFF exon 18268 18366 . - . Parent=NR_024540 chr1 GTF2GFF exon 24738 24891 . - . Parent=NR_024540 chr1 GTF2GFF exon 29321 29370 . - . Parent=NR_024540 chr1 GTF2GFF gene 34611 36081 . - . ID=FAM138A;Note=unknown;Name=FAM138A chr1 GTF2GFF exon 34611 35174 . - . Parent=NR_026818 chr1 GTF2GFF exon 35277 35481 . - . Parent=NR_026818

3番目のフィールドに「gene」を含む行のみを抽出し、9番目のフィールドを再配置して、ID値のみを含むようにします（たとえば、DDX11L1）。これは望ましい出力です：

chr1 11874 14408 DDX11L1 . + chr1 14362 29370 WASH7P . - chr1 34611 36081 FAM138A . -

Awkを使用すると、目的のフィールドを簡単に取得できます。

head -20 genes.gff3 | awk '$3=="gene" {print $1 "\t" $4 "\t" $5 "\t" $9"\t" $6 "\t" $7}' chr1 11874 14408 ID=DDX11L1;Note=unknown;Name=DDX11L1 . + chr1 14362 29370 ID=WASH7P;Note=unknown;Name=WASH7P . - chr1 34611 36081 ID=FAM138A;Note=unknown;Name=FAM138A . -

しかし、私はID値の取得に苦労しています。私はそれをsedにパイピングしてみました：

head -20 genes.gff3 | awk '$3=="gene" {print $1 "\t" $4 "\t" $5 "\t" $9"\t" $6 "\t" $7}' | sed 's/$^.+\t$ID=$\w+$.+$\t.+$$/\1\2\3/g'

そしてまた、gsub

head -20 genes.gff3 | awk '$3=="gene" {gsub(/$^.+\t$ID=$\w+$.+$\t.+$$/, "\1\2\3", $9); print $1 "\t" $4 "\t" $5 "\t" $9"\t" $6 "\t" $7}'

しかし、結果はawkを単独で使用した場合と同じです。 ID値を抽出するにはどうすればよいですか？私はここでの解決策に本当に近いと感じています。

乾杯。

Runium · Accepted Answer

split フィールドを使用して substr を次のように使用できます：

split($9, a, ";") print substr(a[1], 4)

Awkインデックスは1で始まります。

別のオプションは、入力フィールド区切り文字（FS）を変更することです。 FSはデフォルトではスペース ""です。これには先頭と末尾のスペースを無視の特殊な効果もあります。

また、print $1, , ...またはprintfバリアントを使用する代わりに、OFSをタブに設定できます。

例：

FSの変更：

awk -F" +|;|=" ' $3 == "gene" { printf("%s	%s	%s	%s	%s	%s	
", $1, $4, $5, $10, $6, $7); } ' data.file

splitの使用：

awk ' $3 == "gene" { split($9, a, ";") printf("%s	%s	%s	%s	%s	%s	
", $1, $4, $5, substr(a[1], 3), $6, $7); } ' data.file

OFSおよびFS：

出力フィールド区切り文字（OFS）タブとして、およびawk内の代替FS。また、タブを含めるようにFSを更新しました：

awk ' BEGIN { FS="[ 	]+|;|=" OFS="	" } $3 == "gene" { print $1, $4, $5, $10, $6, $7 } ' data.file

The Open Group Variables and Special Variables 、 Examples も参照してください。

Gawkマニュアル –これは通常、awkのgawk拡張機能である場合に表示されます。

glenn jackman · Answer

split関数のフィールドセパレーターは正規表現であるため、_=_ OR _;_で分割できます。_$9_ begins with "ID ="、then

_awk -v OFS='	' ' $3 == "gene" { split($9, id, /[=;]/) print $1, $4, $5, id[2], $6, $7 } ' genes.gff3 _

「ID =」が必ずしもフィールドの先頭にない場合は、もう少し作業が必要です。

_awk -v OFS='	' ' $3 == "gene" { id = "" len = split($9, f, /[=;]/) for (i=1; i<len; i++) { if (f[i] == "ID") { id = f[i+1] break } } print $1, $4, $5, id, $6, $7 } ' genes.gff3 _

Rany Albeg Wein · Answer

これは、awkおよびsedの使用を要求する明示的な要求にもかかわらず、公開を許可されたBashソリューションです。

show_genes() { local filename="$1" while read -ra larr; do if [[ ${larr[2]} = gene ]]; then larr[8]="${larr[8]%%;*}" larr[8]="${larr[8]#ID=}" printf '%s
' "${larr[*]}" fi done < "$filename" }

使用法： show_genes /path/to/some/file.txt

サンプル出力：

[rany$] cat data.txt romosome 1 249213345 . . . ID=chr1;Name=chr1 chr1 GTF2GFF gene 11874 14408 . + . ID=DDX11L1;Note=unknown;Name=DDX11L1 chr1 GTF2GFF exon 11874 12227 . + . Parent=NR_046018_1 chr1 GTF2GFF exon 12613 12721 . + . Parent=NR_046018_1 chr1 GTF2GFF exon 13221 14408 . + . Parent=NR_046018_1 chr1 GTF2GFF gene 14362 29370 . - . ID=WASH7P;Note=unknown;Name=WASH7P chr1 GTF2GFF exon 14362 14829 . - . Parent=NR_024540 chr1 GTF2GFF exon 14970 15038 . - . Parent=NR_024540 chr1 GTF2GFF exon 15796 15947 . - . Parent=NR_024540 chr1 GTF2GFF exon 16607 16765 . - . Parent=NR_024540 chr1 GTF2GFF exon 16858 17055 . - . Parent=NR_024540 chr1 GTF2GFF exon 17233 17368 . - . Parent=NR_024540 chr1 GTF2GFF exon 17606 17742 . - . Parent=NR_024540 chr1 GTF2GFF exon 17915 18061 . - . Parent=NR_024540 chr1 GTF2GFF exon 18268 18366 . - . Parent=NR_024540 chr1 GTF2GFF exon 24738 24891 . - . Parent=NR_024540 chr1 GTF2GFF exon 29321 29370 . - . Parent=NR_024540 chr1 GTF2GFF gene 34611 36081 . - . ID=FAM138A;Note=unknown;Name=FAM138A chr1 GTF2GFF exon 34611 35174 . - . Parent=NR_026818 chr1 GTF2GFF exon 35277 35481 . - . Parent=NR_026818 [rany$] show_genes data.txt chr1 GTF2GFF gene 11874 14408 . + . DDX11L1 chr1 GTF2GFF gene 14362 29370 . - . WASH7P chr1 GTF2GFF gene 34611 36081 . - . FAM138A [rany$]

JJoao · Answer

ちょっとしたコーヒーブレイクの答え

Perl -ne 's/	.*?	gene// #remove 	 F2 	 gene and s/\S*	ID=(.*?);.*/$1/ #remove 	 Fn 	 ID=.... keeping the id and print' file