日本語のユニコード範囲

Question

英語と日本語の文字を分離しようとしています。すべての日本語文字のUnicode範囲を見つける必要があります。すべての日本語文字のUnicode範囲とは何ですか？

tacosan · Accepted Answer

CJK（中国語、日本語、韓国語）、ひらがな、カタカナ（半角カタカナを含む）

http://www.unicode.org/charts/

Sean Colombo · Answer

Zawhtutが述べたように、このページにはいくつかのUnicode範囲のリファレンスがあります。範囲を要約するには：

和風の句読点（3000-303f）
ひらがな（3040-309f）
カタカナ（30a0-30ff）
全角ローマ字および半角カタカナ（ff00-ffef）
CJK unifed表意文字-共通および非共通漢字（4e00-9faf）

jamesh625 · Answer

この質問にはすでに答えがありますが、おそらくこのブログ投稿の方が完全でしょう。

サイトにアクセスしてメトリックを取得してください。ただし、後世のためにコピー＆ペーストしてください。

ひらがな

Unicodeコードポイントの正規表現：[\x3041-\x3096]

Unicodeブロックプロパティの正規表現：\p{Hiragana}

ぁあぃいぅうぇえぉおかがきぎくぐぐけげこごさざしじすずせぜそぞただちぢっつつづてとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわゐををんゔサムネイルゕﾟﾟ゜゜ゝゟゟ

カタカナ（全角）

Unicodeコードポイントの正規表現：[\x30A0-\x30FF]

Unicodeブロックプロパティの正規表現：\p{Katakana}

ァァアイイゥウェエォオカガキギクケケゲコゴササシジスズセゼソゾタダダチデツツテデトドナニヌノハバパヒビピフブプヘベペホボポママムメモャヤユユョヨラリレレロヮワヰヱヲンヴスケガヷヸヹー・ーヾヿヿ

漢字

Unicodeコードポイントの正規表現：[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]

Unicodeブロックプロパティの正規表現：\p{Han}

漢字日本語文字言語言葉などリストするには文字が多すぎます。

この正規表現は、中国語で使用される漢字を含むすべての漢字に一致します。

漢字ラジカル

Unicodeコードポイントの正規表現：[\x2E80-\x2FD5]

⺯⺁⺂⺄⺅⺆⺇⺈⺉⺊⺌⺍⺎⺏⺐⺒⺓⺔⺕⺖⺘⺙⺚⺛⺜⺞⺟⺡⺨⺪⺤⺦⺭⺮⺯⺪⺬⺰⺱⺮⺯⻡⺳⺴⺶⺷⺸⺹⺺⺻⺼⺾⺿⻀⻁⻂⻄⻅⻆⻇⻈⻊⻋⻌⻍⻎⻐⻑⻓⻚⻜⻖⻘⻟⻠⻡⻜⻞⻢⻣⻠⻡⼟⻥⻦⻨⻩⻪⻫⻬⻭⻮⻰⻱⻲⻳⼀⼂⼃⼄⼅⼆⼈⼉⼊⼋⼌⼎⼏⼑⼘⼚⼔⼖⼝⼞⼟⼚⼜⼠⼡⼞⼟⽑⼣⼤⼦⼧⼨⼩⼪⼫⼬⼮⼯⼰⼱⼲⼴⼵⼶⼷⼸⼺⼻⼼⼽⼾⽀⽁⽃⽊⽌⽆⽈⽏⽐⽑⽌⽎⽒⽓⽐⽑⽕⽗⽘⽙⽚⽛⽜⽞⽟⽠⽡⽢⽤⽤⽧⽨⽩⽪⽬⽭⽮⽯⽱⽲⽴⽼⽼⽾⽸⽺⽼⾂⾃⽾⾀⾄⾂⾂⾂⾏⾇⾉⾊⾋⾌⾍⾏⾏⾏⾓⾔⾕⾖⾗⾘⾚⾛⾜⾝⾟⾠⾡⾣⾤⾦⾮⾯⾰⾪⾬⾳⾴⾵⾰⾲⾶⾳⾴⾵⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿑⿑⿒⿔⿕

カタカナと句読点（半角）

Unicodeコードポイントの正規表現：[\xFF5F-\xFF9F]

｟｡｡｢｣、・ｦｨｨｩｫｭÜｯｰｱｲｳｴｵｶｷｸｹｺｺｻｼｼｾｿﾀﾁﾂﾃﾄﾅﾆﾇﾈﾉﾊﾋﾌﾍｾﾑﾒﾓﾔﾕﾖﾗﾘﾙﾚﾛﾜﾝﾞ

日本語記号と句読点

Unicodeコードポイントの正規表現：[\x3000-\x303F]

、〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〣〭〮〯〫〬〰〱〲〲〴〵〶〷〸〹〺〻〼〽〾〿〿

その他の日本語の記号と文字

Unicodeコードポイントの正規表現：[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]

ㇱㇳㇴㇵㇶㇷㇸㇹㇺㇻㇼㇽ㈥㈦㈧㈩㈪㈤㈥㈮㈯㈱㈱㈱㈴㈵㈶㈷㈱㈿㈺㈻㈶㈽㈾㈿㊭㉃㊀㊂㊃㊄㊅㊆㊇㊈㊊㊋㊌㊍㊎㊐㊑㊒㊓㊔㊖㊗㊘㊙㊚㊜㊝㊟㊦㊨㊢㊤㊫㊬㊭㊨㊪㊮㊯㊬㊭㋣㊱㊲㊴㊵㊶㊷㊸㊹㊺㊼㊽㊾㊿㋀㋂㋃㋄㋅㋆㋈㋉㋊㋋㋐㋒㋓㋕㋜㋞㋘㋚㋡㋢㋣㋞㋠㋤㋥㋢㋣㌖㋧㋨㋪㋫㋬㋭㋮㋯㋰㋲㋳㋴㋵㋶㋸㋹㋺㋻㋼㋾㌀㌁㌂㌃㌅㌆㌈㌏㌑㌋㌍㌔㌕㌖㌑㌓㌗㌘㌕㌖㍈㌚㌛㌝㌞㌟㌠㌡㌢㌣㌥㌦㌧㌨㌩㌫㌬㌭㌮㌯㌱㌲㌳㌴㌵㌷㌸㌺㍁㍃㌽㌿㍆㍇㍈㍃㍅㍉㍊㍇㍈㍽㍌㍍㍏㍐㍑㍒㍓㍔㍕㍖㍘㍙㍚㍛㍜㍝㍞㍠㍡㍢㍣㍤㍥㍧㍨㍩㍫㍬㍭㍮㍯㍱㍳㍽㍴㍶㍻㍼㍽㍾

英数字と句読点（全角）

Unicodeコードポイントの正規表現：[\xFF01-\xFF5E]

！＂＃＄％＆＇（）＊＋、－。／０１２３４５６７８９：；＜＝＞？＠ＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ［＼］＾＿＿｀ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｑｒｓｔｕｖｗｘｙｚ｛｜｝〜

zawhtut · Answer

リファレンスについては、こちらをご覧ください page カタカナ、ひらがな、漢字のユニコード範囲が含まれています。

Martin Thoma · Answer

すべての日本語文字のUnicode範囲とは何ですか？

書面による言語識別のためのWiLIベンチマークデータセット、特に表IIのページをご覧ください。括弧内の数字は、Unicodeコード範囲（10進数）でキャプチャした言語の一部です。

12352-12543：日本語（48.73％）、英語（0.00％）
19000-44000：日本語（32.78％）、英語（0.00％）
20〜128：英語（99.74％）、日本語（11.58％）

20-128は英語を非常にうまくキャプチャし、3つのブロックすべてが日本語にとって重要であることがわかりますが、それでも大きな部分が欠落しています。

これらの番号は lidtk および WiLI-2018 。