Indexed by:
Abstract:
Spark是大数据内存计算系统的典型代表,通过内存缓存数据加速迭代型、交互型大数据应用的运行.基于时间窗口的数据分析是一类典型的大数据迭代型应用.基于Spark平台运行时间窗口数据分析应用,存在中间结果数据放置不均的问题,造成应用执行效率降低.针对上述问题,提出基于遗传算法的Spark中间结果数据迁移策略,通过考虑中间结果数据迁移时机、迁移数据规模,并使用遗传算法优化选取迁移数据放置位置,提高时间窗口应用执行效率.实验结果表明,在既有Spark平台中,采用该迁移策略可使时间窗口应用执行时间最大减少28.45%,平均减少21.59%.
Keyword:
Reprint Author's Address:
Email:
Source :
软件导刊
ISSN: 1672-7800
Year: 2020
Issue: 4
Volume: 19
Page: 89-92
Cited Count:
WoS CC Cited Count: 0
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: -1
Chinese Cited Count:
30 Days PV: 14