英語と日本語の文字を分離しようとしています。すべての日本語文字のUnicode範囲を見つける必要があります。すべての日本語文字のUnicode範囲とは何ですか?
CJK(中国語、日本語、韓国語)、ひらがな、カタカナ(半角カタカナを含む)
Zawhtutが述べたように、 このページ にはいくつかのUnicode範囲のリファレンスがあります。範囲を要約するには:
この質問にはすでに答えがありますが、おそらく このブログ投稿 の方が完全でしょう。
サイトにアクセスしてメトリックを取得してください。ただし、後世のためにコピー&ペーストしてください。
ひらがな
Unicodeコードポイントの正規表現:
[\x3041-\x3096]
Unicodeブロックプロパティの正規表現:
\p{Hiragana}
ぁあぃいぅうぇえぉおかがきぎくぐぐけげこごさざしじすずせぜそぞただちぢっつつづてとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりるれろゎわゐををんゔサムネイルゕ゚ ゚゜゜ゝゟゟ
カタカナ(全角)
Unicodeコードポイントの正規表現:
[\x30A0-\x30FF]
Unicodeブロックプロパティの正規表現:
\p{Katakana}
ァァアイイゥウェエォオカガキギクケケゲコゴササシジスズセゼソゾタダダチデツツテデトドナニヌノハバパヒビピフブプヘベペホボポママムメモャヤユユョヨラリレレロヮワヰヱヲンヴスケガヷヸヹー・ーヾヿヿ
漢字
Unicodeコードポイントの正規表現:
[\x3400-\x4DB5\x4E00-\x9FCB\xF900-\xFA6A]
Unicodeブロックプロパティの正規表現:
\p{Han}
漢字日本語文字言語言葉などリストするには文字が多すぎます。
この正規表現は、中国語で使用される漢字を含むすべての漢字に一致します。
漢字ラジカル
Unicodeコードポイントの正規表現:
[\x2E80-\x2FD5]
⺯⺁⺂⺄⺅⺆⺇⺈⺉⺊⺌⺍⺎⺏⺐⺒⺓⺔⺕⺖⺘⺙⺛⺜⺞⺟⺡⺨⺪⺤⺦⺭⺮⺯⺪⺬⺰⺱⺮⺯ ⻡⺳⺴⺶⺷⺸⺹⺺⺻⺼⺾⺿⻀⻁⻂⻄⻅⻆⻇⻈⻊⻋⻌⻍⻎⻐⻑⻓⻚⻜⻖⻘⻟⻠⻡⻜⻞⻢⻣⻠⻡ ⼟⻥⻦⻨⻩⻪⻫⻬⻭⻮⻰⻱⻲⻳⼀⼂⼃⼄⼅⼆⼈⼉⼊⼋⼌⼎⼏⼑⼘⼚⼔⼖⼝⼞⼟⼚⼜⼠⼡⼞⼟ ⽑⼣⼤⼦⼧⼨⼩⼪⼫⼬⼮⼯⼰⼱⼲⼴⼵⼶⼷⼸⼺⼻⼼⼽⼾⽀⽁⽃⽊⽌⽆⽈⽏⽐⽑⽌⽎⽒⽓⽐⽑ ⽕⽗⽘⽙⽚⽛⽜⽞⽟⽠⽡⽢⽤⽤⽧⽨⽩⽪⽬⽭⽮⽯⽱⽲⽴⽼⽼⽾⽸⽺⽼⾂⾃⽾⾀⾄⾂⾂⾂⾏⾇⾉⾊⾋⾌⾍⾏⾏⾏⾓⾔⾕⾖⾗⾘⾚⾛⾜⾝⾟⾠⾡⾣⾤⾦⾮⾯⾰⾪⾬⾳⾴⾵⾰⾲⾶⾳⾴⾵ ⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿑⿑⿒⿔⿕
カタカナと句読点(半角)
Unicodeコードポイントの正規表現:
[\xFF5F-\xFF9F]
⦅。。 「」、・ヲ ィ ィ ゥ ォ ュÜッ ー ア イ ウ エ オ カ キ ク ケ ココ サ シ シ セ ソ タ チ ツ テ ト ナ ニ ヌ ネ ノ ハ ヒ フ ヘ セム メ モ ヤ ユ ヨ ラ リ ル レ ロ ワ ン ゙
日本語記号と句読点
Unicodeコードポイントの正規表現:
[\x3000-\x303F]
、〄々〆〇〈〉《》「」 『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〣〭〮〯〫〬〰〱〲〲 〴〵〶〷〸〹〺〻〼〽〾〿〿
その他の日本語の記号と文字
Unicodeコードポイントの正規表現:
[\x31F0-\x31FF\x3220-\x3243\x3280-\x337F]
ㇱㇳㇴㇵㇶㇷㇸㇹㇺㇻㇼㇽ㈥㈦㈧㈩㈪㈤㈥㈮㈯㈱㈱㈱㈴㈵㈶㈷㈱㈿㈺㈻㈶㈽㈾㈿ ㊭㉃㊀㊂㊃㊄㊅㊆㊇㊈㊊㊋㊌㊍㊎㊐㊑㊒㊓㊔㊖㊗㊘㊙㊚㊜㊝㊟㊦㊨㊢㊤㊫㊬㊭㊨㊪㊮㊯㊬㊭ ㋣㊱㊲㊴㊵㊶㊷㊸㊹㊺㊼㊽㊾㊿㋀㋂㋃㋄㋅㋆㋈㋉㋊㋋㋐㋒㋓㋕㋜㋞㋘㋚㋡㋢㋣㋞㋠㋤㋥㋢㋣ ㌖㋧㋨㋪㋫㋬㋭㋮㋯㋰㋲㋳㋴㋵㋶㋸㋹㋺㋻㋼㋾㌀㌁㌂㌃㌅㌆㌈㌏㌑㌋㌍㌔㌕㌖㌑㌓㌗㌘㌕㌖ ㍈㌚㌛㌝㌞㌟㌠㌡㌢㌣㌥㌦㌧㌨㌩㌫㌬㌭㌮㌯㌱㌲㌳㌴㌵㌷㌸㌺㍁㍃㌽㌿㍆㍇㍈㍃㍅㍉㍊㍇㍈㍽㍌㍍㍏㍐㍑㍒㍓㍔㍕㍖㍘㍙㍚㍛㍜㍝㍞㍠㍡㍢㍣㍤㍥㍧㍨㍩㍫㍬㍭㍮㍯㍱㍳㍽㍴㍶㍻㍼㍽㍾
英数字と句読点(全角)
Unicodeコードポイントの正規表現:
[\xFF01-\xFF5E]
!"#$%& '()* +、-。 / 0 1 2 3 4 5 6 7 8 9:; <=>?@ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [\] ^ __` a b c d e f g h i j k l m n o p q q r s t u v w x y z {|}〜
リファレンスについては、こちらをご覧ください page カタカナ、ひらがな、漢字のユニコード範囲が含まれています。
すべての日本語文字のUnicode範囲とは何ですか?
書面による言語識別のためのWiLIベンチマークデータセット 、特に表IIのページをご覧ください。括弧内の数字は、Unicodeコード範囲(10進数)でキャプチャした言語の一部です。
20-128は英語を非常にうまくキャプチャし、3つのブロックすべてが日本語にとって重要であることがわかりますが、それでも大きな部分が欠落しています。