web-dev-qa-db-ja.com

utf8mb4を使用してMySQLで絵文字で検索するにはどうすればよいですか?

絵文字のようなマルチバイト文字がMySQLutf8mb4フィールドでどのように処理されるかを理解するのを手伝ってください。

課題を説明するための簡単なテストSQLについては、以下を参照してください。

/* Clear Previous Test */
DROP TABLE IF EXISTS `emoji_test`;
DROP TABLE IF EXISTS `emoji_test_with_unique_key`;

/* Build Schema */
CREATE TABLE `emoji_test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `status` tinyint(1) NOT NULL DEFAULT '1',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
CREATE TABLE `emoji_test_with_unique_key` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `string` varchar(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `status` tinyint(1) NOT NULL DEFAULT '1',
  PRIMARY KEY (`id`),
  UNIQUE KEY `idx_string_status` (`string`,`status`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

/* INSERT data */
# Expected Result is successful insert for each of these.
# However some fail. See comments.
INSERT INTO emoji_test (`string`, `status`) VALUES ('????', 1);                   # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('????', 1);                   # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('????????', 1);                 # SUCCESS
INSERT INTO emoji_test (`string`, `status`) VALUES ('????????', 1);                 # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('????', 1);   # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('????', 1);   # FAIL: Duplicate entry '?-1' for key 'idx_string_status'
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('????????', 1); # SUCCESS
INSERT INTO emoji_test_with_unique_key (`string`, `status`) VALUES ('????????', 1); # FAIL: Duplicate entry '??-1' for key 'idx_string_status'

/* Test data */

    /* Simple Table */
SELECT * FROM emoji_test WHERE `string` IN ('????','????','????????','????????'); # SUCCESS (all 4 are found)
SELECT * FROM emoji_test WHERE `string` IN ('????');                     # FAIL: Returns both ???? and ????
SELECT * FROM emoji_test WHERE `string` IN ('????');                     # FAIL: Returns both ???? and ????
SELECT * FROM emoji_test;                                              # SUCCESS (all 4 are found)

    /* Table with Unique Key */
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('????','????','????????','????????'); # FAIL: Only 2 are found (due to insert errors above)
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('????');                     # SUCCESS
SELECT * FROM emoji_test_with_unique_key WHERE `string` IN ('????');                     # FAIL: ???? found instead of ????
SELECT * FROM emoji_test_with_unique_key;                                              # FAIL: Only 2 records found (???? and ????????)

上記のFAILsの原因と、これを回避する方法を知りたいと思っています。

具体的には:

  1. 1つのマルチバイト文字を選択するとanyマルチバイト文字の結果が返されるのはなぜですか?
  2. ?の代わりにマルチバイト文字を処理するようにインデックスを構成するにはどうすればよいですか?
  3. 上記の2番目のCREATE TABLE(一意のキーを持つもの)を変更して、すべてのテストクエリが正常に返されるようにすることをお勧めしますか?
16
Ryan

列にutf8mb4_unicode_ciを使用するため、チェックでは大文字と小文字は区別されません。代わりにutf8mb4_binを使用する場合は、絵文字????と????別の文字として正しく識別されます。

WEIGHT_STRING を使用すると、入力文字列の並べ替えと比較に使用される値を取得できます。

あなたが書く場合:

SELECT
  WEIGHT_STRING ('????' COLLATE 'utf8mb4_unicode_ci'),
  WEIGHT_STRING ('????' COLLATE 'utf8mb4_unicode_ci')

次に、両方が0xfffdであることがわかります。 nicode文字セット で彼らは言う:

一般的な照合の補足文字の場合、重みは0xfffd REPLACEMENTCHARACTERの重みです。

あなたが書く場合:

SELECT 
  WEIGHT_STRING('????' COLLATE 'utf8mb4_bin'),
  WEIGHT_STRING('????' COLLATE 'utf8mb4_bin')

代わりに、Unicode値0x01f32eおよび0x01f336を取得します。

ÄÁAのように、utf8mb4_unicode_ciを使用した場合に等しい他の文字の場合、違いは次のようになります。

SELECT
  WEIGHT_STRING ('Ä' COLLATE 'utf8mb4_unicode_ci'),
  WEIGHT_STRING ('A' COLLATE 'utf8mb4_unicode_ci')

それらは重みにマップされます0x0E33

Ä: 00C4  ; [.0E33.0020.0008.0041][.0000.0047.0002.0308] # LATIN CAPITAL LETTER A WITH DIAERESIS; QQCM
A: 0041  ; [.0E33.0020.0008.0041] # LATIN CAPITAL LETTER A

によると: MariaDB/MySQLのutf8mb4_unicode_ciとutf8mb4_unicode_520_ciの照合順序の違いは?utf8mb4_unicode_ciに使用される重みは CA 4.0. に基づいています。絵文字が表示されないためです。そこでは、マップされた重みは0xfffdです。

大文字と小文字を区別しない比較と絵文字付きの通常の文字の並べ替えが必要な場合、この問題はutf8mb4_unicode_520_ciを使用して解決されます。

SELECT
  WEIGHT_STRING('????' COLLATE 'utf8mb4_unicode_520_ci'),
  WEIGHT_STRING('????' COLLATE 'utf8mb4_unicode_520_ci')

また、これらの絵文字0xfbc3f32e0xfbc3f336の重みも異なります。

15
t.niese