题目:分布式流处理系统中的负载分析与预测技术研究
● 摘要
随着分布式流处理技术的广泛应用,人们对系统的服务质量提出更高的要求。分布式流处理是一类将流处理逻辑划分为多个独立组件并分布在网络中不同位置协同工作的技术。它能够根据底层网络和计算资源情况,灵活、快速地建立满足用户请求的任务,同时通过一系列运行时机制保障应用运行的稳定可靠以及持续满足用户的QoS需求。直接关系到服务质量的节点负载问题,便是研究的热点。目前的分布式流处理领域的负载研究主要集中在发生过载现象时的负载均衡方面,很少考虑是否能预知过载现象,并提前做出反应。为了在分布式流处理网络的主要负载预测方面有所创新,本文首先提出了一种针对分布式流处理主要负载的局部节点网络模型,合理的将复杂的分布式流处理网络抽象为针对节点以及数据流量的模型,从而为接下来要给出的预测算法做好铺垫。然后扩展了经典的实时机器学习算法Share Algorithm,将其应用于分布式流处理环境中。使用曲线拟合等方式作为算法中的“专家”,也就是预测的提出者。并使用最近一段时间内的实际数据流量作为预测的来源。使得算法的预测具有实时性,并且可以表现出数据流的近期变化。最后通过仿真分布式环境的搭建和实验,将预测算法的效果体现在数值上。实验表明,本预测算法对单节点的数据流预测准确率在90%以上的情况可达到73%以上。本文提出的分布式流处理中数据流量的预测算法,精确度很高,适用范围广泛,甚至并不局限于分布式场景。同时具有高效的特点,为分布式流处理的节点负载,以及负载均衡提供了可靠的参考依据。
相关内容
相关标签