在日常工作中,对于MySQL排序规则,很少关注,大部分时候都是直接使用字符集默认的排序规则,常常忽视了排序规则的细节问题,了解排序规则有助于更好的理解MySQL字符比较和排序相关的知识
简述
说起排序规则就离不开字符集,严格来说,排序规则是依赖于字符集的
字符集是用来定义MySQL存储不同字符的方式,而排序规则一般指对字符集中字符串之间的比较、排序制定的规则。一种字符集可以对应多种排序规则,但是一种排序规则只能对应指定的一种字符集,两个不同的字符集不能有相同的排序规则
上图中,Collation
列表示排序方式,Charset
列表示字符集,可以看出 utf8
字符集对应着许多的排序方式,排序方式那一列每一项的值都不一样,并且每一项都对应唯一一种字符集,在这里是 utf8
字符集
默认排序规则
- 字符集的默认排序规则
每种字符集都有一个默认的排序规则, 可以通过下面的SQL语句查询指定字符集的默认排序规则
mysql> show character set like 'utf8%';
+---------+---------------+--------------------+--------+
| Charset | Description | Default collation | Maxlen |
+---------+---------------+--------------------+--------+
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 |
+---------+---------------+--------------------+--------+
2 rows in set (0.00 sec)
上面的例子是查询字符集前缀包含utf8
的默认排序方式,从中可以得知:
utf8
字符集的默认排序方式是 utf8_general_ci
字符集中字符最大长度占3个字节
utf8mb4
字符集的默认排序方式是 utf8mb4_general_ci
字符集中字符最大长度占4个字节
- 数据库的默认排序规则
MySQL服务器的默认字符集可以在 /etc/my.cnf
配置中的 [mysqld]
下修改
例如:现需要把MySQL服务器的默认字符集设置为 utf8
, 默认排序规则设置为 utf8_general_ci
, 只需要在 /etc/my.cnf
配置文件的 [mysqld]
下添加以下子项
character-set-server=utf8
collation-server=utf8_general_ci
创建数据库的时候如果没有指定字符集,会使用MySQL服务器默认字符集和默认排序规则
假如: 在下面例子中,MySQL服务器的默认字符集和默认排序规则分别是 utf8
和 utf8_general_ci
mysql> create database at;
Query OK, 1 row affected (0.00 sec)
mysql> select SCHEMA_NAME,DEFAULT_CHARACTER_SET_NAME,DEFAULT_COLLATION_NAME from INFORMATION_SCHEMA.SCHEMATA where SCHEMA_NAME='at';
+-------------+----------------------------+------------------------+
| SCHEMA_NAME | DEFAULT_CHARACTER_SET_NAME | DEFAULT_COLLATION_NAME |
+-------------+----------------------------+------------------------+
| at | utf8 | utf8_general_ci |
+-------------+----------------------------+------------------------+
1 row in set (0.00 sec)
在上面的例子中,创建了 at
数据库,创建数据库的时候没有为数据库指定字符集和排序规则,此时会使用 MySQL服务器的默认字符集和排序规则
通过SQL语句查询 at
数据库的默认字符集和默认排序规则,结果和MySQL服务器的默认字符集和默认排序规则是一样的
排序规则命名以及名字后缀
- 命名
排序规则的命名是以和它自身关联的字符集名字开头的,后面再接一个或多个后缀来表示指定字符集的一种排序规则