一条SQL查询语句是如何执行的

2024年7月4日 · 阅读需 8 分钟

下面是 MySQL 基础架构示意图

20240704230730

总体上，MySQL 可以分为 Server 层和存储引擎层两部分

Server 层包括连接器、查询缓存、分析器、优化器、执行器等，包含了 MySQL 绝大部分核心服务功能，以及所有的内置函数（如日期、时间、数学和加密函数等），所有的跨存储引擎的功能都在这一层进行实现，比如存储过程、触发器、视图等

存储引擎层负责数据的存储和提取。其架构模式是插件式的，支持 InnoDB、MyISAM、Memory 等多个存储引擎。从 MySQL 5.5.5 开始 InnoDB 称为了 MySQL 的默认存储引擎

可以在使用create table语句中使用engine=memory，来指定使用内存引擎创建表

不同的存储引擎共用一个 Server 层

连接器

第一步，先连接到这个数据库上，这时候需要使用连接器。连接器负责跟客户端建立连接、获取权限、维持和管理连接，连接命令为：

mysql -h$ip -P$port -u$user -p

连接命令是用来跟服务端建立连接的。在完成经典的 TCP 握手之后，连接器就要开始用输入的用户名跟密码认证你的身份

如果用户名或者密码不对，就会收到一个Access denied for user的错误，然后客户端程序结束
如果用户名密码认证通过，连接器会到权限表里面查出当前账号拥有的权限，之后这个连接里面的权限判断逻辑，都依赖于此时读到的权限

这就意味着，一个用户成功建立连接后，即使管理员对这个用户的权限做了修改，也不会影响已经存在连接的权限。只有新的连接才会使用新的权限设置

连接完成后，如果没有后续动作，这个连接就处于空闲状态，使用show processlist命令查看

20240704230751

客户端如何太长时间没有操作，连接器会自动断开。这个时间是由参数 wait_timeout 控制的，默认值是 8 小时

如果连接断开后，客户端再次发送请求的话，就会收到一个错误提醒：Lost connection to MySQL server during query，如果要继续，就需要重连，然后再执行请求

数据库里面有一种长连接，指的是连接成功后，客户端如果有连续的请求，则一直使用同一个连接。短连接是指每次执行完很少的几次查询后就断开连接，下次查询再重新建立一个

建立连接的过程比较复杂，建议平时开发中尽量减少建立连接的操作，也就是尽量使用长连接

但全部使用长连接后，有时 MySQL 占用内存涨的很快，这是因为 MySQL 在执行过程中临时使用的内存是管理在连接对象中的。这些资源会在断开连接时才释放，所以如果长连接积累下来，可能导致内存占用过大，被系统强行杀掉（OOM），表现出的现象就是 MySQL 异常重启

解决措施：

定期断开长连接。使用一段时间，或者程序里面判断执行一个占用内存过大的查询后，断开连接，之后查询要重连
如果使用的是 MySQL 5.7 或更新的版本，可以在每次执行完一个比较大的操作后，通过执行 mysql_reset_connection来重新初始化连接资源，这个过程不需要重连和重新做权限校验，但是会将连接恢复到刚刚创建完的状态

查询缓存

注意：MySQL 8.0 开始，查询缓存功能已经彻底删除了，因为查询缓存弊大于利

MySQL 拿到一个查询请求，会先到查询缓存中查看，之前是否执行过这条语句。之前执行过的语句及其查询结果会以 key-value 的形式，直接缓存在内存里。key 是查询的语句，value 是查询的结果。如果能在查询缓存中找到 key，那么 value 会直接返回给客户端

如果语句不在查询缓存中，会继续走后面的流程

为什么查询缓存弊大于利？

查询缓存失效的非常频繁，只要对一个表有更新，这个表上面的所有查询缓存都会被清空。这就导致缓存的命中率非常低，除非是一张静态配置表

MySQL 提供了“按需使用”的方式来使用查询缓存。将参数query_cache_type设置成 DEMAND，这样默认的 SQL 语句不会使用查询缓存，如果有语句需要使用的时候，可以用SQL_CACHE显式指定

select SQL_CACHE * from T where ID=10;

分析器

如果没有命中查询缓存，就要开始真正执行语句了。首先，MySQL 需要知道要做什么，因此需要对 SQL 语句做解析

分析器先会做“词法分析”。输入的是由多个字符串和空格组成的一条 SQL 语句，MySQL 需要识别出里面的字符串分别是什么，代表什么 MySQL 从输入的select这个关键字识别出来，这是一个查询语句。它也要把字符串T识别成表名 T，把字符串ID识别成列 ID 做完了这些识别以后，就要做“语法分析”。根据词法分析的结果，语法分析器会根据语法规则，判断输入的这个 SQL 语句是否满足 MySQL 语法

如果语句不对，就会收到You have an error in your SQL syntax的错误提醒，比如下面这个语句 select 少打了开头的字母“s”

mysql> elect * from t where ID=1;
 
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'elect * from t where ID=1' at line 1

优化器

分析器让 MySQL 知道了你要做什么，然后需要经过优化器处理

优化器是表中有多个索引的时候，决定使用哪个索引，或者在一个语句有多表连接（join）的时候，决定各个表的连接顺序。比如下面语句

select * from t1 join t2 using(ID) where t1.c=10 and t2.d=20;

可以先从表 t1 中取值，也可以从 t2 中取值，两种方式的逻辑效果是一样的，但是执行效率会不同，而优化器的作用就是决定选择哪一种方案

优化器阶段结束后，就会进入执行器阶段

执行器

执行器开始执行语句

但是在执行之前，要先判断一下当前连接有没有对表执行查询的权限，如果没有，就会返回没有权限的错误（如果查询的时候命中缓存了，在查询缓存返回结果时，也会做权限校验）

如果有权限，就打开表继续执行，打开表的时候，执行器就会根据表的引擎定义，去使用这个引擎提供的接口

比如这个例子中的表 T 中，ID 字段没有索引，那么执行器的执行流程是这样的：

调用 InnoDB 引擎接口取这个表的第一行，判断 ID 值是不是 10，如果不是则跳过，如果是则将这行存在结果集中；
调用引擎接口取“下一行”，重复相同的判断逻辑，直到取到这个表的最后一行。
执行器将上述遍历过程中所有满足条件的行组成的记录集作为结果集返回给客户端。

至此，这个语句就执行完成了

对于有索引的表，第一次调取“取满足条件的第一行”这个接口，之后循环取“满足条件的下一行”这个接口，这些接口都是引擎中已经定义好的在数据库的慢查询日志中能看到 rows_examined 字段，表示这个语句在执行过程中扫描了多少行，这个值是在执行器每次调用引擎获取数据行的时候累加的

在有些场景下，执行器调用一次，在引擎内部扫描了多行，因此引擎扫描行数跟 rows_examined 并不是完全相同的

连接器​

查询缓存​

分析器​

优化器​

执行器​

连接器

查询缓存

分析器

优化器

执行器