编者按:过去10年,很多计算机体系结构研究学者都在感叹体系结构的研究步履维艰,在很多国际会议的讨论中出现了类似“体系结构正在消亡(Architecture is dying)”,“永生的体系结构(Long lived architecture)”等有趣的争论,其背后的动因是对传统的冯·诺伊曼体系结构在应对多样化应用的局限的深刻认识和对摩尔定律的放缓甚至终结的担心。这篇文章源于2016国际体系结构年会(ISCA 2016)上的Workshop讨论和公开问卷。然而,主旨并不是回答体系结构是否还值得无数的学者前赴后继,而是以一个更加开放的心态去探讨体系结构如何求变以为新应用提供更好服务。本文的贡献者达到近40人,大部分来自具有悠久体系结构研究历史的美国一流大学,学术背景也很多样化。不同领域的思想碰撞为我们勾勒出未来15年体系结构研究可能的图谱。
应用趋势、器件技术和系统结构的发展驱动了信息技术的进步。然而,这一进步的早期引擎——摩尔定律和登纳德缩放定律(Dennard scaling)——收益正在快速地变得越来越小。计算机界已经直接面临新的挑战:如何确保信息技术有一个坚实的未来。
在过去几年,计算机体系结构领域的学者进行了一些愿景规划的活动。五年前,计算社区联盟(Computing Community Consortium)发布了一篇《21世纪的计算机架构》白皮书,影响了学术界和工业界的项目资助计划。最近,《IEEE重启计算倡议》一文又从体系结构、器件和电路等方面探索计算系统的未来。
本文将努力延续这一话题的讨论,深入接触应用和器件/电路学界,了解他们的趋势和愿景。我们的目标是发现弥合应用领域和器件领域之间的鸿沟的机遇。
为什么现在要做这件事?因为近五年来发生了许多变化,尤其是以下五个方面:
1.硬件和应用的专用化鸿沟。现有的硬件性能与应用需求之间存在显著的专用化差距。一些应用,诸如虚拟现实和自治系统等,在没有专用硬件的支持下无法实现,但设计专用硬件仍然既昂贵又困难。
2.云计算。目前无处不在的云计算提供了一种清晰的“创新抽象”。云创造了巧妙且跨层次优化成本效益的规模经济。云经常是透明地提供这些创新,对最小的创业公司和新兴企业也是如此。
3.垂直化趋势。采用芯片叠加和整体制造的垂直化三维集成制造工艺,使硅基片变得更厚,显著降低了延迟,增加了带宽,提高了能效。
4.更接近物理层。器件与电路学者们正在努力探索新型材料,这些材料可以实现更加有效的信号转换、更加密集的布局方式及新的计算模型,例如,混合信号、碳纳米管、量子力学效应、生物聚合物等。
5.机器学习作为核心负载已经兴起。机器学习技术,诸如深度学习,让系统设计者惊喜地发现其可以用于许多方面,例如用户偏好预测、计算机视觉和自主导航等。
专用化的鸿沟:硬件设计大众化
为了延续计算机工业创新的光荣历史,开发硬件必须像开发软件一样简单、便宜和灵活。
广泛和新兴的看法一直认为,经典的CMOS工艺缩放路线——基于晶体管越来越小、集成度越来越高的摩尔定律的技术引擎——将在不到3代半导体工艺(6~9年)之后面临终结[1]。而且,登纳德缩放——随着CMOS的集成度提高但能够使每个芯片的功耗保持不变的技术趋势——也将在21世纪中叶终结[2, 3],这将导致处理器设计的巨大变革:运算能效已经取代面积效率或峰值逻辑门开关,成为最重要的一项限制峰值性能的设计约束[4]。
从近期工业界的动向中可以窥见到经典工艺缩放路线即将到来的后果。例如,英特尔已经放弃了长期奉行的“工艺年-构架年(tick-tock)”开发模式,从原先每代工艺推出两款主要芯片设计,现已改为三款。这个改变意在通过维系“苟延残喘”的摩尔定律从而延长每代产品的市场寿命。更有甚者,美国半导体行业协会(Semiconductor Industry Association)也已放弃维持了数十年、每两年更新一次的国际半导体技术路线图(International Technology Roadmap for Semiconductors, ITRS)的老传统,这一技术文档为整个半导体产业界协调技术、制造与系统开发提供了指导。由于没有明确的方向维系缩放路线,ITRS的价值也在逐渐衰退。
然而,新应用的不断涌现,对计算能力的需求在日益增长。其中最突出的就是那些由大规模机器学习所驱动的、从前难以想象的应用:从图像和语音识别到无人驾驶汽车,再到击败围棋顶尖高手。同样可以看到对视觉数据处理和理解的需求的爆发式增长,有些前瞻性应用或许要求为世界上每个人提供每秒千兆像素级的运算能力。
过往计算技术的进步主要来源于对通用计算设计的巨大投入,而这些设计依赖于经典的缩放路线,并且完全由少数几家处理器制造商完成。得益于这些通用设计的计算机应用综合市场的庞大体量,足以分摊这些厂商的大量投入。
随着传统缩放路线的衰落,只通过改进少数通用计算平台将无法继续满足新兴应用对计算性能的需求。相反,在过去的5~10年里,在一些计算密集型应用领域,一种新的性能优化手段策略已经兴起——专用硬件设计。与在通用处理芯片上运行软件的方案相比,专用硬件方案(如专用集成电路)单位操作上可提高能效10000倍[5]。此能效的提升对于新兴的物联网的丰富应用是至关重要的。专用化已经在图形渲染和视频播放等方面取得了巨大成功。机器学习应用也开始取得商业成功。实际上,计算机体系结构领域的科研人员已经认识到专用化的重要性并投身其研究:2016年体系结构领域三大顶级会议(ISCA、HPCA、MICRO)共收录论文175篇,其中38篇是关于图形处理器(GPU)和专用加速器设计的,还有17篇是关于机器学习专用化设计的。
然而,迄今为止,专用设计的商业化的成功,只限于拥有巨大市场的应用(例如视频游戏、移动视频播放等),值得像通用处理器厂商那样投资。以上市时间和金钱来衡量,设计和制造专用硬件的成本极高,只有极少数的设计可以在这样巨大的市场逐步摊销。
为了继续有效创新的周期,关键是排除专用系统设计的障碍,从而在所有应用中体现出专用化在能效方面的优势。我们的愿景是“大众化”硬件设计,也就是让硬件设计变得像软件设计那样敏捷、便宜和开放。软件开发团队可以利用丰富的、拥有现成的可重用部件的生态系统(通常是免费和开源的),使用高级语言加速提高单个开发者的能力,并依靠强大和自动化的程序分析、综合、测试和调试来保证品质。
尽管经过了几十年的投入,计算机辅助设计仍未能达到一个小开发团队即可进行硬件设计的水平。硬件系统设计者需要更好的工具,提高在硬件描述方面的能力,更快的性能评估手段,更敏捷的原型化方法和更严谨的软/硬件协同设计验证方法。工具链要成熟,可以跨越多个硬件层次,从通用可编程处理核到大规模可编程逻辑阵列、可编程加速器以及专用集成电路,从而能够轻易实现重定位。更好的抽象描述对于硬件的组件化和可重用是必需的,这些抽象可以是以可综合的知识产权(IP)模块的形式,甚至可以是以物理芯片或芯片组的形式存在,在制造时可便宜地集成到系统中。对于体系结构领域的研究者来说,这是一次努力弥补通用和专用系统之间的鸿沟的机会,并开发出一系列工具和框架平台,使大众化硬件设计成为现实。
云计算是对体系结构创新的抽象
利用规模化和虚拟化技术,云计算提供商可以透明和低成本地提供硬件创新,即使最小的客户也是如此。
云计算对传统商业模式的颠覆已被广泛认可。云计算能够促使新兴企业的规模发展远快于传统的基础设施投资。新产品的用户可以在短短几天时间内从几百个增长到几百万个,2016年7月迅速风靡全球的手机游戏“口袋妖怪”(Pokemon Go)就是很好的例证。但是,云计算也打破了传统财富500强的商业模式,因为以前拥有自己的IT基础设施的企业实现了出租云资源带来的成本收益。
云计算提供商利用规模化不仅是为了自身业务,也是为了投资IT的客户的利益。因此,这些提供商往往会发现,进行巨大的、非重复性的工程投资是合算的,例如,在内部开发全新的软件和硬件系统,而不依赖第三方产品供应商。
我们开始看到出现了使得云计算实现前所未有的性能的专用计算机架构。无论是高端的超级计算机,还是商业的云端产品,GPU变得无处不在。微软公司公开披露了Catapult项目[6],该项目致力于整合现场可编程门阵列(FPGA)以促进其数据中心的计算专用化。Cavium公司已经发布了一个互联网服务应用的专用架构ThunderX。谷歌公司公布了张量处理器TPU,这是一个面向机器学习应用的专用协处理器。上述项目表明,已经有很多经济原因促使云计算提供商投资专用计算机架构。
对学术界的计算机体系结构研究者来说,现在是抓住这个机遇并展示跨层专用化愿景的时机。例如,专用集成电路云(ASIC Clouds)项目展示了如何协同开发大量高度专用的处理器,从而让关键应用得到明显加速[7]。
云计算模型的第二个关键优势是虚拟化。虚拟化这类技术将新的硬件和软件创新透明地引入现有的软件系统。虚拟化使得云提供商可以为了更快、更便宜的技术替换处理器、存储器和网络部件,而不必与消费者沟通协调。虚拟化也促成了资源的超额认购——在消费者对特定资源的需求具有时变、碎片化特征的情况下,在消费者之间进行透明的资源共享。超额订购对云计算的成本结构很重要,和单独的消费者购买专属资源比较,它使得云供应商以极低的价格提供IT资源。
学术界的计算机体系结构研究长期以来对实现虚拟化起到重要作用,例如威睿(VMWare)这个最被认可的虚拟化技术供应商,就是从一个大学研究计划发起的。学术界的体系结构研究者必须继续在开发虚拟化技术中扮演关键角色,来缩短虚拟化性能与裸机性能之间的差距。此外,体系结构研究者必须开发新型的虚拟化抽象,从而实现对专用硬件单元,比如Catapult、TPU和ASIC Clouds等的透明使用和超额订购。
垂直化趋势
三维(3D)集成提供了一个新的可扩展维度。
摩尔定律终结的重要后果是使得芯片设计师再也不能“无偿地”每18个月将自己设计中的晶体管数量提高一倍。与此同时,最近几代芯片中,相对于计算,驱动全局总线开销的增长很快,因此不断提升了互联在芯片功耗预算中所占比例。
3D集成为芯片设计提供了一个新的扩展维度,尽管摩尔定律终结了,仍然可以在一个单系统上集成更多的晶体管,可以从3个维度缩减互联开销,并实现各种混合制造技术的紧密集成。因此,3D集成使3D结构内部的系统组件具有更高的能效、更宽的带宽和更低的延迟。
从架构上来讲,3D集成也说明平衡系统的计算必须尽量靠近数据。尽管闪存和其他内存设备早已通过3D方式进行容量扩展,但将内存设备与高性能逻辑集成的尝试才刚刚开始。例如,美光(Micron)公司推出的混合内存立方体(Hybrid Memory Cube),实现了快速逻辑和密度内存的3D堆叠,为学术界重新刮起“近数据计算”(near-data computing, NDC)和“内存处理”(processing-in-memory, PIM)架构的学术研究风潮。尽管这个研究问题早在20年前已相当流行,但受限于当时的工艺技术,PIM架构并没有进一步实现商业应用。近几年,随着实用芯片堆叠和多技术垂直集成技术的出现,这些架构成为提升扩展性的有效途径。
尽管3D集成为芯片设计赋予了新能力,但同时也在实现高可靠性和高收益方面提出许多复杂的新挑战,其中高可靠性和高收益可以通过架构支持解决。比如,3D集成内存启发我们重新思考传统内存和存储架构。3D集成也对功率和温度管理引入了全新的问题,这是由于传统的散热技术不足以应对高性能集成设计带来的功率密度提升。这些问题和挑战开启了全新的、丰富的体系架构创新的可能性。
体系结构“更接近物理层”
经典缩放定律的终结,给计算机底层架构带来更多的本质变化。
新的器件技术和电路设计技术历来引发新结构的产生。未来有若干可能的情况给计算机体系结构带来深远的影响。这些情况分为两大类。第一类是通过更有效的信息编码,更接近模拟信号,来更好地利用目前的材料和器件。对模拟计算的关注再次兴起,因为它很适合需要控制准确度的应用。而且和数字信息处理相比,模拟信息处理通过把信息更密集地映射到模拟信号上,以及更高效的功能单元,能够保证功耗更低。然而,这类计算更易受到噪声影响,需要有新的容错方法才能实际应用。
第二类机会是“新”材料的使用,包括更高效的交换、更密集的布局和独特的计算模型。下面我们列出一些值得体系结构领域注意的努力方向。
新的存储器件。几十年来,数据一直存储在动态随机存取存储器(DRAM)、闪存或磁盘上。但是,新的存储器件(例如Intel/Micron 3D XPoint存储器)正在进入商用化,与传统存储层次部件相比,这些新器件在开销、密度、延迟、吞吐量、可靠性和寿命等方面完全不同。
碳纳米管。基于碳纳米管(CNTs)的电子学研究持续取得显著进展,最近的结果表明,只使用碳纳米管搭建出一个简单的微处理器是可行的。碳纳米管可以保证更高的密度和更低的功耗,并且可用在三维基底上。这使得碳纳米管成为体系结构方案是非常可行的。
量子计算。量子计算利用量子力学现象存储和操纵信息。它的主要优点是,“叠加”量子现象有效地允许同时表达0和1状态,这使得量子计算实现选择算法时比传统计算有了指数级加速。
超导逻辑。量子计算的一个姊妹方向是超导逻辑,使用约瑟夫森结等超导器件的系统,能够提供“免费”的通信,因为在超导线上传输信号几乎不消耗能量[8]。另一方面,在数据操作上比传输数据有更高的能耗。这些权衡与CMOS硅电路正好相反,在CMOS电路上大部分能量消耗在通信而不是数据操作。
微软、谷歌、IBM和I-ARPA等公司和机构都已经宣布在量子计算和超导逻辑进行了大量投资。我们认为量子计算机结构得到再次关注的时机是成熟的,量子计算在十年内可能会产生实际影响。
借鉴生物学。利用生物学基底做计算很早就想到了,有可能实现。DNA计算已经演示了简单的逻辑操作,最近的许多结果也表明DNA作为档案存储器和纳米结构自组装的数字媒介具备潜力。对研究人员来说,生物科技产业推动的DNA操纵技术所取得的进展使得体系结构研究人员认为,使用生物是可行的。除了DNA,还有诸如蛋白质等其他生物分子能够用于计算,这些生物分子工程在过去十年进步显著。
机器学习作为核心负载
机器学习正在改变我们实现应用的方式。硬件性能提升使得机器学习应用于大数据成为可能。
机器学习在过去十年中取得了长足的进步,产生了很多长期以来只存在于科幻小说里的应用。可以说,这一进步在很大程度上受益于丰富的数据和强大的计算能力。大规模机器学习应用也促进了存储系统和专用硬件(GPU, TPU)等的设计。
尽管目前的重点是支持云端的机器学习,但是在诸如智能手机和超低功耗传感器节点等低功耗设备中支持机器学习应用也有非常重要的机会。幸运的是,许多机器学习内核具有相对规整的结构,能够在准确率和资源需求之间进行权衡。因此,它们适用于专用硬件、重构和近似计算等技术,为体系结构的创新开启了新空间。
机器学习从业者在计算上花费相当长的时间用于模型训练。即便使用超大规模的计算集群,花费一星期到一个月来训练一个模型也是普遍的。虽然这样的计算资源投资能够分摊到对模型多次调用,但模型较长的更新迭代周期可能会对用户体验产生负面影响。因此,对体系结构研究人员来说,设计能更好地支持机器学习模型训练的系统是一个新的机遇。 ■
致谢:
本文是由美国加州大学圣巴巴拉分校谢源教授与中科院计算所包云岗研究员推荐,并取得了原文笔者威斯康星大学马克·希尔教授的授权。参与翻译的人员还有中科院计算所叶靖博士,卢文岩、李家军、展旭升、王卅、江树浩。李双辰(美国加州大学圣巴巴拉分校)校阅了整篇论文,特此感谢。
脚注:* 这篇文章是ISCA 2016期间召开的研讨会Arch2030 WorkShop的讨论结果(Arch2030: A Vision of Computer Architecture Research over the Next 15 Years)。该研讨会由路易斯·塞泽(Luis Ceze)和托马斯·维尼施(Thomas Wenisch)组织,马克·希尔(Mark Hill)指导。组织方也以公开调查的形式向业界征求反馈意见和评论。塞泽和维尼施基于调查的反馈起草和修订了文本。
参考文献:
[1]Chien A A, Karamcheti V. Moore's Law: The First Ending and a New Beginning[J]. Computer, 2013, 46(12):48-53.
[2]Fuller S H, Millett L I. The Future of Computing Performance: Game Over or Next Level?[M]. National Academy Press, 2011.
[3] Horowitz M, Alon E, Patil D, et al. Scaling, Power and the Future of CMOS[C]//Proceedings of the IEEE International Electron Devices Meeting. IEEE Computer Society, 2007:23.
[4] Mudge T. Power: A First-Class Architectural Design Constraint[J]. Computer, 2001,34(4):52-58.
[5] Hameed R, Qadeer W, Wachs M, et al. Understanding sources of inefficiency in general-purpose chips[C]//Proceedings of the 37th Annual International Symposium on Computer Architecture(ISCA’10), 2010, 38(3):37-47.
[6] Putnam A, Caulfield A M, Chung E S, et al. A reconfigurable fabric for accelerating large-scale datacenter services[C]// Proceedings of the 41st International Symposium on Computer Architecture. IEEE Press, 2014:13-24.
[7] Magaki I, Khazraee M, Gutierrez L V, et al. ASIC Clouds: Specializing the Datacenter[C]// Proceedings of the 43rd International Symposium on Computer Architecture. IEEE Press, 2016:178-190.
[8] Superconducting Computing and the IARPA C3 Program[OL].(2016-04-05).http://beyondcmos.ornl.gov/documents/Session%203_talk1-Holmes.pdf.
作者:路易斯·塞泽(Luis Ceze)
马克·希尔(Mark D. Hill)
托马斯·维尼施(Thomas F. Wenisch)
所有评论仅代表网友意见