web-dev-qa-db-ja.com

正規表現を使用して、utf-8エンコーディングの任意の漢字に一致させる

たとえば、mで構成される文字列をnの中国語文字に一致させたい場合、次を使用できます。

[single Chinese character regular expression]{m,n}

単一の漢字の正規表現はありますか?漢字は存在する可能性がありますか?

26
xiaohan2012

中国語(まあ、CJK)の文字に一致する正規表現は

\p{script=Han}

単純に評価できる

\p{Han}

これは、正規表現コンパイラが 要件RL1.2UTS#18のプロパティUnicode Regular Expressions 。 PerlとJava 7は両方ともその仕様を満たしていますが、他の多くはそうではありません。

29
tchrist

Javaでは、

\p{InCJK_UNIFIED_IDEOGRAPHS}{1,3}
6
DayDayHappy