浅谈分布式存储系统的数据分布算法

发布时间：2021-03-12 10:41:55 所属栏目：传媒来源：互联网

导读：这里假设目标数据是以 key 标识的数据块或对象。在一个包含多个存储节点的集群中，数据分布算法需要为每一个给定的 key 指定一个或多个对应的存储节点负责，数据分布算法有两个基本目标：均匀性(Uniformity)：不同存储节点的负载应该均衡

这里假设目标数据是以 key 标识的数据块或对象。在一个包含多个存储节点的集群中，数据分布算法需要为每一个给定的 key 指定一个或多个对应的存储节点负责，数据分布算法有两个基本目标：

可以看出，这两个目标在一定程度上是相互矛盾的。当有存储节点增加或删除时，为了保持稳定应该尽量少的进行数据的移动和重新分配，而这样又势必会带来负载不均衡。同样追求极致均匀也会导致较多的数据迁移。

所以我们希望在这两个极端之间，找到一个点以获得合适的均匀性和稳定性。除了上述两个基本目标外，工程中还需要从以下几个方面考虑数据分布算法的优劣：

性能可扩展性：这个主要考虑的是算法相对于存储节点规模的时间复杂度。为了整个系统的可扩展性，数据分布算法不应该在集群规模扩大后显著的增加运行时间。
考虑节点异构：实际工程中，不同存储节点之间可能会有很大的性能或容量差异，好的数据分布算法应该能很好的应对这种异构，提供加权的数据均匀。
隔离故障域：为了数据的高可用，数据分布算法应该为每个 key 找到一组存储节点，这些节点可能提供的是数据的镜像副本，也可能是类似擦除码的副本方式。数据分布算法应该尽量隔离这些副本的故障域，如不同机房、不同机架、不同交换机、不同机器。

（编辑：阜新站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!