コマンドラインで文字列内のUTF-8 / Unicode文字をチェック/検索するプログラム？

Question

システムにファイルがあることに気づきました。それは通常リストします：

$ ls -la TΕSТER.txt -rw-r--r-- 1 user user 8 2013-04-11 18:07 TΕSТER.txt $ cat TΕSТER.txt testing

...それでも、UTF-8/Unicode関連のエラーでソフトウェアがクラッシュします。そのようなファイルがなぜ問題なのかわからなかったので、私は本当に戸惑いました。そして最後に、lsの出力をhexdumpで確認することを思い出しました。

$ ls TΕSТER.txt TΕSТER.txt $ ls TΕSТER.txt | hexdump -C 00000000 54 ce 95 53 d0 a2 45 52 2e 74 78 74 0a |T..S..ER.txt.| 0000000d

...ええと、明らかにいくつかの文字の間に/代わりにいくつかのバイトがあるので、それはUnicodeエンコーディングの問題だと思います。そして、バイトをエコーバックして、何が出力されるかを確認することができます。

$ echo -e "\x54\xCE\x95\x53\xD0\xA2\x45\x52\x2E\x74\x78\x74" TΕSТER.txt

...しかし、これらがUnicode文字であるかどうかはまだわかりません。

それで、端末の文字列を調べて、その文字に関するUnicode情報を取得できるコマンドラインツールはありますか？

rmiesen · Answer

DebianおよびUbuntuシステムで niutils パッケージの一部であるuninameを使用してみてください。動作中のuninameの例を次に示します。

echo -e "\x54\xCE\x95\x53\xD0\xA2\x45\x52\x2E\x74\x78\x74" | uniname No LINES variable in environment so unable to determine lines per page. Using default of 24. character byte UTF-32 encoded as glyph name 0 0 000054 54 T LATIN CAPITAL LETTER T 1 1 000395 CE 95 Ε GREEK CAPITAL LETTER EPSILON 2 3 000053 53 S LATIN CAPITAL LETTER S 3 4 000422 D0 A2 Т CYRILLIC CAPITAL LETTER TE 4 6 000045 45 E LATIN CAPITAL LETTER E 5 7 000052 52 R LATIN CAPITAL LETTER R 6 8 00002E 2E . FULL STOP 7 9 000074 74 t LATIN SMALL LETTER T 8 10 000078 78 x LATIN SMALL LETTER X 9 11 000074 74 t LATIN SMALL LETTER T 10 12 00000A 0A LINE FEED (LF)

sdaau · Answer

さて、ネットを少し見てみると、名前でUnicode文字を検索| commandlinefu.com ;にワンライナーugrepが見つかりました。しかし、それはここではあまり役に立ちません。

次に、コーデック–文字列のエンコードとデコード-Python今週のモジュール、多くのオプションがありますが、Unicode文字名とはあまり関係がありません。

それで最後に私は小さなツールをコーディングしましたutfinfo.pl、stdinでの入力のみを受け入れます：

http://sdaaubckp.svn.sourceforge.net/viewvc/sdaaubckp/single-scripts/utfinfo.pl

...これは私に次の情報を与えます：

$ ls TΕSТER.txt | Perl utfinfo.pl Got 10 uchars Char: 'T' u: 84 [0x0054] b: 84 [0x54] n: LATIN CAPITAL LETTER T [Basic Latin] Char: 'Ε' u: 917 [0x0395] b: 206,149 [0xCE,0x95] n: GREEK CAPITAL LETTER EPSILON [Greek and Coptic] Char: 'S' u: 83 [0x0053] b: 83 [0x53] n: LATIN CAPITAL LETTER S [Basic Latin] Char: 'Т' u: 1058 [0x0422] b: 208,162 [0xD0,0xA2] n: CYRILLIC CAPITAL LETTER TE [Cyrillic] Char: 'E' u: 69 [0x0045] b: 69 [0x45] n: LATIN CAPITAL LETTER E [Basic Latin] Char: 'R' u: 82 [0x0052] b: 82 [0x52] n: LATIN CAPITAL LETTER R [Basic Latin] Char: '.' u: 46 [0x002E] b: 46 [0x2E] n: FULL STOP [Basic Latin] Char: 't' u: 116 [0x0074] b: 116 [0x74] n: LATIN SMALL LETTER T [Basic Latin] Char: 'x' u: 120 [0x0078] b: 120 [0x78] n: LATIN SMALL LETTER X [Basic Latin] Char: 't' u: 116 [0x0074] b: 116 [0x74] n: LATIN SMALL LETTER T [Basic Latin]

...次に、どの文字が「プレーン」ではないかを識別しますASCII文字。

これが誰かを助けることを願っています、
乾杯！

Danilo G. Veraszto · Answer

外部のASCII char、たとえば：áからのバイト、

echo -n 'á' | xxd

áからのUnicode

echo -en 'á' | iconv -f utf-8 -t UNICODEBIG | xxd -g 2

したがって、ファイル名の場合、

echo -e "\x54\xCE\x95\x53\xD0\xA2\x45\x52\x2E\x74\x78\x74" | iconv -f utf-8 -t UNICODEBIG | xxd -g 2

大文字のEのユニコードが\ u0395であることを示しています。これは、ASCII\x45のシンボル描画と同じようです。