A Primer on Hardware Prefetching

摘要

自20世纪70年代以来,基于微处理器的数字平台一直遵循着摩尔定律,即大约每两年在相同面积上的密度就翻一番。然而,当微处理器的制造技术专注于提高指令的执行速率时,存储器的制造技术则主要关注容量的提高,而速度的增加可忽略不计。这种处理器和内存间的性能差异趋势导致了一种被称为“存储墙”的现象。
为了克服存储墙,设计师引入了带有缓存的存储器层次结构,这种设计依靠内存访问的空间局部性原理来减少观察到的内存访问时间,也需权衡处理器与内存间的性能差距。现代的缓存层次结构中提供了在缓存层次间移动指令和数据的简单策略,不幸的是,许多重要的工作负载表现出不利于内存访问的模式,令这些简单策略力有不逮。因此,对于在较高层缓存中未命中的内存块,处理器往往需要耗费大量时间获取它们。
预取——预测未来的内存访问并在显式访问前对就相应内存块发出请求——是一种隐藏内存访问延迟的有效途径。已经有无数的预取技术被提出,几乎每一个现代处理器都包括一些针对简单和常规内存访问模式的硬件预取机制。本导论概述了研究文献中提出的各类指令和数据的硬件预取器,并介绍了已被引入现代微处理器的预取技术实例。
Since the 1970's, microprocessor-based digital platforms have been riding Moore's law, allowing for doubling of density for the same area roughly every two years. However, whereas microprocessor fabrication has focused on increasing instruction execution rate, memory fabrication technologies have focused primarily on an increase in capacity with negligible increase in speed. This divergent trend in performance between the processors and memory has led to a phenomenon referred to as the "Memory Wall."
To overcome the memory wall, designers have resorted to a hierarchy of cache memory levels, which rely on the principal of memory access locality to reduce the observed memory access time and the performance gap between processors and memory. Unfortunately, important workload classes exhibit adverse memory access patterns that baffle the simple policies built into modern cache hierarchies to move instructions and data across cache levels. As such, processors often spend much time idling upon a demand fetch of memory blocks that miss in higher cache levels.
Prefetching—predicting future memory accesses and issuing requests for the corresponding memory blocks in advance of explicit accesses—is an effective approach to hide memory access latency. There have been a myriad of proposed prefetching techniques, and nearly every modern processor includes some hardware prefetching mechanisms targeting simple and regular memory access patterns. This primer offers an overview of the various classes of hardware prefetchers for instructions and data proposed in the research literature, and presents examples of techniques incorporated into modern microprocessors.

硬件预取技术导论 ieee.org
作者:Babak Falsafi, EPFL, Switzerland; Thomas F. Wenisch, University of Michigan, USA
本文为英文文献翻译,欢迎交流。最新更新时间:2021年11月17日。

关键词:hardware prefetching, next-line prefetching, branch-directed prefetching, discontinuity prefetching, stride prefetching, address-correlated prefetching, Markov prefetcher, global history buffer, temporal memory streaming, spatial memory streaming, execution-based prefetching

0 序言

...

1 简介

1.1 存储墙 The Memory Wall

图1.1显示了过去的四十年间处理器和内存间日益增大的性能差距。在这段时期,微架构、电路和制造技术的创新带来了处理器性能的指数增长。而与此同时,DRAM 的增长主要来自密度的增加,其速度的提高仅仅是名义上的。虽然未来的预测表明处理器的性能提升可能不再以同样速度进行下去,但目前的性能差距使得有必要用数年时间,采用技术来缓解漫长的内存访问延迟。
计算机架构师们尝试通过建立高速缓冲存储器(cache,缓存)的层次结构来弥补这一性能差距。图1.2展示了一个现代计算机的缓存层次结构,该层次由若干层级缓存组成,每层都认真权衡了延迟与容量。层次结构的目的主要是通过在缓存中完成大部分内存访问,减少较慢的 DRAM 访问的次数,以改善平均内存访问时间。靠近核心的缓存会更小但更快,以有效降低访问延迟。我们将最靠近核心的缓存层级称为一级缓存(L1),然后依次对各层级进行编号,最后一级缓存称作 LLC(last level cache)。
层次结构依赖于两种类型的内存访问局域性:时间局域性和空间局域性。时间局域性是指最近被访问的内存块很可能会被再次访问。空间局域性是指内存中近邻的指令或数据通常是相关的,因此被访问位置周围的位置也很可能会被访问。
尽管局域性原理非常强大,但它依赖于两个基本前提,而这两个前提不一定适用于所有类型的工作负载(workload),尤其是在缓存层次结构越来越深的情况下。第一个前提是:缓存的大小适合于所有的工作负载和访问模式。事实上,现代工作负载的容量需求变化是高度动态的,不同工作负载所适合的缓存层次容量/速度权衡通常不同。第二个前提是:分配和替换缓存项的单一策略适用于所有工作负载(通常按需分配和替换最近未使用项)。同样,内存访问模式也可以是高度动态的,因此很难说哪个缓存项分配/替换策略能一直或在所有情况下表现良好。
已经有许多关于克服内存墙的技术被提出,无论是从算法、编译器、系统软件,一级级直到硬件层面。包括缓存无关的算法(cache-oblivious algorithms)、编译器级的代码和数据分布的优化(code and data layout optimizations),以及以硬件为中心的方法。在本书,我们将集中讨论基于硬件的指令和数据预取技术。我们建议读者参阅 Jacob 的综合讲座以更全面地处理存储系统 [4]。

1.2 预取 Prefetching

...
翻译参考:
[1]【目录序言翻译】硬件预取技术导论《A Primer on Hardware Prefetching》zhihu.com

版权声明:
作者:dorence
链接:https://wp.dorence.top/archives/59
来源:极客模拟
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>
文章目录
关闭
目 录