实战项目 | CH's 博客

1. KV基础 KV存储，即键值数据存储，是一种基于键值对的存储方式，将数据存储为一个由键和值组成的二元组 KC存储的应用场景：作数据库的缓存层、分布式系统中的元数据、分布式锁最常见的KV数据库是Redis，Redis是基于内存的KV数据库，虽有持久化策略AOF和RDB，但是本质上还是面向内存设计的，数据收到内存的限制而本项目go-bitDB是面向磁盘的KV数据库 KV数据库的数据存储模型大致分为两种，一个B+树，一个是LSM树 B+树：BolitDB LSM树：LevelDB、RocksDB 2. 了解bitcask存储模型 [[bitcask-intro.pdf]] bitcask存储模型是由提供分布式存储系统的企业Riak提出对bitcask存储模型的理想：读写低延迟高吞吐，特别对大量的随机写入能处理超过内存容量的数据崩溃恢复好，保证快速恢复，进来不丢失数据简单的备份和恢复策略相对简单，易懂的代码结构和数据存储格式在大数据量下，性能有保障能够自由使用在Riak系统一个bitcask实例就是系统上的一个目录，并且限制同一时刻只能有一个进程打开这个目录。目录中多个文件同一个刻只能有一个活跃的文件用于写入新的数据当活跃文件写到一个阈值后，就会被关闭，成为旧的数据文件，并打开一个新的文件用于写入所以一个目录里面就是：一个活跃文件和多个旧文件当前活跃文件的写入是追加(append only)，这表示可以利用顺序IO，不会有多余的磁盘寻址，减少了磁盘寻道实践，最大限度保证吞吐写入文件的数据格式，其字段为 crc：数据校验，防止数据被破环、篡改 timestamp：写入数据的时间戳 ksz：key size，key的大小 value_sz：value size，value的大小 key：用户实际存储的key value：用户实际存储的value crc | tstamp | ksz | value_sz | key | value 每次写入都是追加到活跃文件中，删除操作实际上也是一次追加写入当下次merge的时候，才会将这种无效的数据清理。旧数据在merge前将一直存在于磁盘文件中，旧数据的删除操作是新追加一条标识其被删除的记录在追加写入磁盘文件后，更新内存中的数据结构，叫keydir，实际是全部key的一个集合，存储的是key到一条磁盘文件数据的位置 keydir根据需求可以使用哈希表、B树、跳表等天然支持排序的数据结构 key --> file_id | value_sz | value_pos | tstamp key --> file_id | value_sz | value_pos | tstamp ...... key --> file_id | value_sz | value_pos | tstamp keydir在内存中存储一条数据在磁盘中的最新位置，旧数据等待merge的时候清理 ...