在计算机学科中,虚拟化通常指的是将计算机物理资源,如处理器、网络、内存及存储等予以抽象、转换后呈现出来,虚拟资源脱离了原生资源的架设方式、地域或物理组态的限制,用户可以使用比原本的组态更好的方式来应用这些资源。
虚拟化技术最早出现在20世纪60年代的IBM大型机上,为更多用户共享昂贵的计算资源提供技术支撑。之后的30年,虚拟化技术受到一定程度的冷落。这有两方面的原因,一是在摩尔定律的支撑下,X86系统性能提升和普及应用成为了计算技术发展的主旋律之一;二是由于X86系统体系结构缺乏必要的硬件支持,无法满足波佩克(Popek)和戈德伯格(Goldberg)在论文“Formal requirements for virtualizable third generation architectures”中提出的虚拟化准则,只能通过纯软件的方法、陷入和模拟的机制来构建虚拟机监控器,这导致虚拟机监控器极其复杂,虚拟计算系统整体性能受到明显的损害。自2005 年英特尔首次提供了针对CPU的硬件辅助虚拟化技术Intel-VTx/i后,一系列针对硬件的硬件辅助虚拟化技术被陆续推出。借助于这些技术,无须通过纯软件方法就能构建虚拟机监控器,大幅提升了虚拟计算系统的整体性能。硬件辅助虚拟化技术可以说是虚拟化复兴的标志性事件,《中国计算机学会通讯》非常敏锐地觉察到该事件将对计算机的发展产生重要的影响,在2008年4月发表了《虚拟化的复兴》专题。之后,虚拟化技术进入了快速发展期,渗透到IT领域中的各个层面。《中国计算机学会通讯》又分别在2011年9月和10月,连续发表了《计算系统虚拟化——原理和技术》和《计算系统虚拟化——评测和应用》两个专题,深入剖析了传统计算模式到虚拟化计算模式转变的时代趋势下,虚拟化技术在计算系统的动态构建、计算资源使用的高效透明、计算环境的协同普适等方面的机理、方法和模式。
云计算最初主要部署在对基础资源消耗大且业务量变化波动剧烈的互联网领域,经过15年的快速发展,云计算在互联网领域成功落地,在传统产业领域也有了一定的渗透率。当前云计算正处在向应用繁荣期转型的关键阶段,不论是在互联网领域,还是在传统领域,云计算应用的广度和深度还远远不够。例如,ActualTech Media公司的“2015 State of SMB IT Infrastructure—Survey Results”报告中显示,超过50%的用户认为,他们IT基础设施虚拟化(云化)的比例在50%以下。国际数据公司(IDC)在“CloudView 2016: The Rapid Embracement of Cloud”中调研了31个国家的11350家公司,虽然有58%的公司使用了云计算,但仅仅在云上部署了1~2个应用或者工作流。类似的行业调查报告都表明,云计算的发展空间仍然巨大。
虚拟化作为云计算的关键使能技术,支撑云计算在常规场景中取得了成功,但还无法应对云计算应用场景的进一步拓展,还有两个关键阻碍需要破除。首先,系统虚拟化技术仍然沿用传统操作系统复杂的层次化设计理念,注重隔离性设计,导致云计算平台还无法满足极端化应用需求。所谓的极端化需求是指极低延迟、极高吞吐、极大并发等性能设定。例如,12306铁道部火车票网上订票系统交易峰值达到400亿次/日,即每秒46万次请求;阿里巴巴2016年“双十一”购物节支付峰值达到12万笔/秒;最新增强/虚拟现实类应用(如AR/VR游戏)的延迟要求低于1毫秒。其次,极端化新型硬件在非云系统中发挥着重要作用,但其虚拟化方法和技术的缺失,导致云计算系统无法充分利用这类新型硬件。在这里,极端化硬件是指可大幅度提升应用处理性能和用户体验的新型硬件设备,包括新型大容量、高带宽内存,如TB级内存、非易失存储器(NVM)、高带宽内存(HBM)等,新型计算加速器,如图形处理器(GPU)、现场可编程门阵列(FPGA)等,新型网络设备,如远程直接数据存取(RDMA)、网络功能虚拟化(NFV)等,新型传感设备,如三轴陀螺仪、全球定位系统(GPS)等。例如,以深度学习为代表的人工智能类应用(如图像分类、语音识别等)急需利用极端化硬件实现对TB级数据的内存计算。虚拟化技术在面对极端化性能需求时,能够有效聚合和拆分物理资源,以多虚拟机的方式大幅度扩展云服务的规模,一定程度上消除传统操作系统软件栈所具有的扩展性限制。在面对极端化硬件设备时,虚拟化技术也有能力提供新型硬件设备的虚拟共享,平衡共享与直通策略,释放新型硬件设备的极端化性能,有效支撑云应用的运行。
本专题的六篇文章,分别从新型硬件虚拟化、存储虚拟化、虚拟化安全、网络虚拟化、高可用虚拟化系统、超大规模虚拟化系统的数据挖掘等方面,剖析了虚拟化技术面临的新挑战,探讨了新型虚拟化技术如何更加高效地支撑云计算场景,如何从关注功能到关注体验,如何从关注通用场景到关注具有苛刻需求的极端化场景,将对繁荣云计算应用发挥积极的作用。
虚拟化之于云计算是基础性技术,硬件抽象能力和水平则是虚拟化的基础性技术。虚拟化的核心问题,一方面是如何把物理资源抽象成虚拟资源,以保障虚拟资源在性能等方面接近物理资源;另一方面是如何高效地管理和利用虚拟资源。2000年前后,虚拟化以纯软件解决方案为主,在可靠性、安全性和性能等方面存在诸多不足。为此,一系列非纯软件的技术应运而生,如针对处理器的Intel VT-x和AMD-V;针对内存的Intel EPT和AMD NPT;针对I/O的Intel VT-d、PCI-SIG组织定义的SR-IOV等等,这类虚拟化技术基本上可以做到在传统硬件上忽略虚拟化带来的性能损耗。近年来,应用需求的不断提升,催生了一批可大幅度提升应用处理性能和用户体验的新型硬件设备,如新型内存、新型加速器、新型网络设备、新型传感设备等。但是,由于缺乏相应的虚拟化技术,导致云计算系统无法充分利用这类新型硬件,无法在云平台部署离不开这类硬件的应用。上海交通大学教授戚正伟等人撰写的《新型硬件的虚拟化》一文较为系统地介绍了GPU、FPGA、RDMA、NVM等新型硬件的虚拟化,以及如何在虚拟计算环境中使用这些硬件的特性。
存储虚拟化是最早的虚拟化技术之一,已经由早期的经典存储虚拟化,发展到目前的软件定义存储、存储超融合等,存储虚拟化在不同的历史阶段,以不同形式适应着各种用户环境的需要。清华大学教授舒继武等人撰写的《存储虚拟化研究综述》一文在回顾了存储虚拟化的发展历程后,重点总结了软件定义存储和存储超融合的现状,剖析了从存储系统的角度支撑云计算应用场景的拓展所要解决的各类挑战。
云计算系统的安全性和可用性是用户最关心的两个问题,虚拟化技术是开展云计算服务的技术基础,其安全性直接影响着云计算系统的安全。华中科技大学教授邹德清等人撰写的《虚拟化安全技术研究》一文,分别探讨了计算系统虚拟化和网络虚拟化的安全技术。虚拟计算系统安全方面重点介绍安全执行环境构建、基于虚拟机架构的透明信任链机制、云虚拟计算安全监控等方法,为构建安全的云服务、监控云服务的安全状态提供了系统性的技术。在网络虚拟化安全方面,结合软件定义网络与网络功能虚拟化两种技术,从软件定义化的角度出发提升了网络抗攻击能力。
无论是在云数据中心,还是在新兴的云端融合计算场景下,网络虚拟化都发挥着至关重要的作用。如何抽象复杂的网络设备并利用网络设备构建具有服务质量(QoS)保证的网络服务,已成为拓展云计算应用场景的主要抓手之一。已有的网络虚拟化成果可以提供常规的QoS保证。天津大学教授李克秋等人撰写的《SDN网络虚拟化的机遇与挑战》一文,从软件定义网络的角度,提出了低延迟的SDN虚拟网络控制器放置算法和结合多个虚拟机监控器实例的低延迟的虚拟网络映射算法,在满足极端环境下对低延迟的vSDN环境需求的同时,尽可能地使底层物理网络资源的负载保持均衡。
云计算的高速发展一方面使得越来越多的应用部署到云平台上,另外一方面也导致云平台的规模越来越大,这两类因素共同把云计算系统的可用性提升到一个新的高度。软件动态更新、虚拟计算环境迁移等技术对系统可用性的提高已经发挥了积极的作用,但在某些情况下,仍会导致短暂的服务不可用。英特尔亚太研发有限公司首席工程师董耀祖撰写的《高可用虚拟化系统》一文,重点介绍了一种虚拟机粗粒度服务不停止的active-active双机热备的高可用新方法COLO,该方法自2015年1月被Xen 4.5发行版采纳后,又在4.6、4.7、4.8三个发行版得到持续的优化,之后QEMU/KVM也采用该方法作为虚拟机的高可用解决方案。
中科院计算所研究员孙毓忠等人撰写的《超大规模虚拟化系统中的数据挖掘技术》一文则针对现有的虚拟化系统无法有效支撑大规模数据处理、内存计算、图计算、科学计算等应用模式的现状,设计了新型高效大数据智能分析平台,提出了众包数据的收集、解耦群智感知和多尺度异常检测、大数据分析中的游牧计算,以及超大规模虚拟化系统的部署优化挖掘等系列方法,有效地克服了巨型云系统难以应对具有依赖关系的软件自动部署,以及难以在管理灵活性、能耗和性能损耗之间取得合理平衡的难题。
要把具有苛刻需求的极端化应用部署到云平台上,需要攻克的难点问题很多,本期的六篇文章只是掀开了这类问题的一角。仅以低延迟应用为例,本期讨论的新型硬件虚拟化、存储虚拟化、网络虚拟化都对低延迟有较大的贡献,但限于篇幅,还没有涉及到虚拟化架构、虚拟计算环境构建等对延迟也有较大影响的环节。要全面系统性地拓展云平台的应用场景,需要多视角多维度的深入分析,也需要更多学者潜心投入,新一代虚拟化技术已经被列入《“十三五”国家科技创新规划》,希望本期的文章对新一代虚拟化技术的研究与应用能够起到抛砖引玉的作用。 ■
所有评论仅代表网友意见