分布式存储笔记2-2 数据库相关

这是一篇在阅读《大规模分布式存储系统：原理解析与架构实战》时的阅读笔记，由于长时间碎片阅读的关系导致在做这种读书笔记的时候接近复制粘贴。虽然其中会有一小部分自己的想法但都十分零碎，希望后续能改进。

NoSQL=Not Only SQL

关系数据库在海量数据场景面临以下挑战：

事务：关系模型要求多个SQL操作满足ACID特性，但是在分布式系统中，如果要满足该特性，需要用到两段提交协议，这个协议性能很低，且不能容忍服务器故障。
连表：传统数据库设计需要满足范式需求，第三范式规定两张关联的表中除了主键外不允许出现其他冗余字段，但是随着表数据增加，连表的开销也就随之增大。为了避免这个问题往往采用数据冗余的方法。
性能：关系数据库采用B/B+树存储引擎，更新操作的性能不如LSM树这样的存储引擎（在更新了磁盘上数据的同时也要根据新的数据更新索引树,在大量数据的情况下对索引的更新开销会很大），对基于主键的增删改查操作性能不如定制的K-V存储系统

NoSQL系统面临的问题：

缺少统一标准：关系数据库有SQL语言这样的业界标准，并拥有完整的生态链，而NoSQL系统使用方法不同，切换成本高，很难通用。
使用以及运维复杂：NoSQL的使用需要理解系统的实现，关系数据库有完整的运维工具与大量经验丰富的运维人员。

着重理解关系数据库的原理与NoSQL的高可扩展性。

事务与并发控制：

事务拥有ACID属性，最理想的状态就是每个事务互不干扰，按顺序执行，这被称为可串行化。但可串行化效率低下，商业数据库通常有多种不同的隔离级别。
事务的并发控制通过锁机制来实现，锁会有不同的粒度：行、数据块、表
互联网应用中读事务比例远高于写事务，因此使用写时复制或者多版本并发控制技术来避免写事务阻塞读事务。

事务

事务是数据库操作的基本单位，因为他们具有ACID（原子性、一致性、隔离性、持久化）特性。

原子性：使得事务一定全部完成或者一定全部失败，不允许存在中间状态被感知到。一个事务对同一数据项的多次读取结果一定是相同的（如果存在中间状态被感知到，则在读取的时候会读取到中间状态，导致多次读取的结果不一致）
一致性：保证数据符合设定规则，有2个方面来保证。一方面通过数据库内部规则确保数据类型正确，数据的值在给定范围内等；另一方面通过应用程序保证数据的值符合当前场景需求。
隔离性：事务的执行不是一步就完成的，因此要确保事务在执行过程中对外不可见。在并发情况下，一个事务在修改途中插入一个查询事务，这个查询事务是感知不到修改事务的中间状态，对他来说数据形式是原始数据，而不是执行过程中修改了一部分的更新事务中的数据。
持久性：事务完成/失败后，对数据库的影响是永久性的。（成功的数据修改与失败的错误日志记录）

四种隔离级别会产生不同的读写异常

并发控制

数据库锁

数据库的锁分为两类：读锁、写锁

通常只允许对一个元素加一个写锁，可以对一个元素加多个读锁。

写事务通常会阻塞读事务。

多个事务并发执行可能会出现死锁，解决办法有两种：

给每个事务设置超时时间
设置死锁检测，死锁的原因在于事务之间资源的互相依赖，检测到死锁后可以通过回滚其中某个事务来消除死锁
写时复制：
在执行写操作时复制一份索引树，并在该索引树上操作。

在整棵索引树中只是复制需要修改的部分结点，不会复制整棵索引树。第三步完成的时候旧的索引树中与复制出来的索引树相关的结点指针都指向新的被修改后的部分索引树。