内容简介:
大数据需要满足基本的3V特性,即数据容量大(价值密度较低)、数据类型繁杂和时效性要求高。大容量和低价值密度特性决定了存储系统在通过分布式架构提升存储能力的同时也要格外注重数据存储的性价比,具有较低单位数据量存储价格的磁盘类设备仍旧极具竞争力。
较高的时效性要求和大数据类型繁杂特性则对存储系统的高性能和适应性方面提出了更大的挑战,也预示着存储级别大数据管理在存储系统性能提升过程中的地位愈加重要。总体而言,自人类进入大数据时代,大数据存储在高性能研究领域正发生着深刻的变革,主要体现在两个大的方面:一方面是存储系统基础设施本身的性能提升,主要包括存储介质和存储体系结构的进化与改善,以及紧密依附于具体介质和架构的缓存管理、预取等核心存储技术的优化。
存储系统基础设施的高性能优化体现出一种通用性和底层依赖性的特征,其核心是面向底层存储设备和存储系统的,缺乏对大数据本身结构优化的相关研究。