DiskSeen: Exploiting Disk Layout and Access History to Enhance I/O Prefetch
摘要
为了克服在逻辑文件级别预取的固有限制,本文提出一种直接在磁盘布局级别进行预取的便捷方式。我们的技术称为 Diskseen,旨在补足文件级预取策略(如果有)并与之协同。Diskseen 跟踪磁盘块的位置和访问时间,并根据分析它们的时间和空间关系,以求提高磁盘访问的顺序和整体预取性能。
我们在 Linux 2.6 内核中的 Diskseen 方案的实现表明,对于微基准测试和 grep、CVS、TPC-H 等真实应用程序,它可以显着提高预取的有效性,减少20%至53%的执行时间。
Current disk prefetch policies in major operating systems track access patterns at the level of the file abstraction. While this is useful for exploiting application-level access patterns, file-level prefetching cannot realize the full performance improvements achievable by prefetching. There are two reasons for this. First, certain prefetch opportunities can only be detected by knowing the data layout on disk, such as the contiguous layout of file metadata or data from multiple files. Second, nonsequential access of disk data (requiring disk head movement) is much slower than sequential access, and the penalty for mis-prefetching a 'random' block, relative to that of a sequential block, is correspondingly more costly.
To overcome the inherent limitations of prefetching at the logical file level, we propose to perform prefetching directly at the level of disk layout, and in a portable way. Our technique, called DiskSeen, is intended to be supplementary to, and to work synergistically with, file-level prefetch policies, if present. DiskSeen tracks the locations and access times of disk blocks, and based on analysis of their temporal and spatial relationships, seeks to improve the sequentiality of disk accesses and overall prefetching performance.
Our implementation of the DiskSeen scheme in the Linux 2.6 kernel shows that it can significantly improve the effectiveness of prefetching, reducing execution times by 20%-53% for micro-benchmarks and real applications such as grep, CVS, and TPC-H.
Diskseen:利用磁盘布局和访问历史记录增强 I/O 预取 usenix.org
2007, USENIX Annual Technical Conference
作者:Xiaoning Ding1, Song Jiang2, Feng Chen1, Kei Davis3, and Xiaodong Zhang1 (1 Ohio State University, USA; 2 Wayne State University, USA; 3 Los Alamos National Laboratory, USA)
1 简介
...
2 跟踪磁盘访问
在描述 Diskseen 之前需要回答两个问题。一是有哪些与磁盘位置和访问时间有关的信息需要被预取策略使用。二是由于以磁盘块为单位的磁盘特有信息(disk-specific knowledge)被暴露(注:有关逻辑磁盘布局的信息一般不会暴露,且该信息实际上可能已用于操作系统中的预取操作。 本文使用“暴露”(expose)表示一种使用低级磁盘特有信息的一般方法,其中可能包括未来使用比 LBN 抽象更底层的隐藏的磁盘几何信息的研究),如何有效地管理潜在的大量信息。在本节中,我们回答了这两个问题。
2.1 暴露磁盘布局信息
...
2.2 LBN 管理块表
目前 LBN 仅用于标识磁盘块的位置,用于内存和磁盘之间的传输。这里我们利用 LBN 跟踪最近访问的磁盘块的访问时间,并分析相邻 LBN 的访问时间的关联性。存储此信息的数据结构须快速通过 LBN 访问块条目及其相邻块,并能高效添加和删除块条目。
块表(block table)由进程内存地址转换的多级页面表启发而成,几乎所有操作系统都有使用,也用于一种识别块序列的方案 DULO [12]。(译者注:DULO,dual locality,双重局部性)如图1所示,LBN 被分成多个段(segment),每个段作为表中相应级别的偏移量。在 DULO 方案中,存储在叶子级(BTE,block table entry)中的 bank 时钟时间(bank clock time)或称为序列块时间(block sequencing time)用于估计块访问时间。DiskSeen 使用了更精细的块访问定时机制。我们将磁盘块的完整访问序列称为块访问流(block access stream)。流中的第 n 块的访问索引为 n。访问计数器随块引用递增;其值作为该块的访问索引,并记录在相应的块表条目中以表示访问时间。
为了便于高效地删除旧的 BTE,每个目录级需记录该目录下最大的块访问索引。清除旧块的表涉及到删除访问索引小于某些给定索引值的所有块。执行此操作需要遍历表,从顶层开始,识别小于给定索引的访问索引,删除相应的子树,并回收内存。
3 Diskseen 的设计
Diskseen 实际上是一种基于序列的历史感知预取方案。在文件级预取启用时,Diskseen 同时执行低级别预取以消除文件级预取的不足。Diskseen 旨在检测基于 LBN 的块访问序列。同时,它维护块访问历史,并据此进一步提高当观察到已记录的重复访问模式时预取的有效性。Diskseen 的设计有四个目标。
- 高效(Efficiency):确保预取块位于本地磁盘区域中,并以其LBN的升序访问以获得最佳磁盘性能。
- 及时(Eagerness):在预取时机出现时立即启动预取。
- 准确(Accuracy):仅预取极有可能被请求的块。
- 激进(Aggressiveness):如果有助于减少请求服务时间,则更为激进地发起预取。
如图2所示,DiskSeen 管理的缓冲区缓存由两个区域组成:预取和缓存区域。缓存区域由现有的操作系统内核策略管理,我们仅作了微小的变化以保持通用性。然而我们减少了缓存区域的大小,并将该空间作为预取区域以使性能比较公平。
3.1 记录访问索引
...
3.2 协调磁盘访问
...
共有 0 条评论