过去一年,生成式 AI 赛道的持续火热,让如今“All in AI”成为几乎所有科技企业的共识,甚至是千行百业都不得不正视的时代趋势。
而关于 AI,结合过去几年的技术和产业发展动向,认为目前至少有两个比较确定的趋势:
其一,是云端 AI 和终端侧 AI 协同的混合 AI 的核心架构,其中发展终端侧 AI 正成为当下的主旋律,也是实现混合 AI 架构的关键。
其二,是生成式 AI 的变革已经到来,并将在全球数以亿计的海量终端中大规模扩展,以此赋能千行百业的生产力。
简言之,终端侧 + 生成式 AI,将是接下来人工智能发展的主旋律,从消费者的角度来说,这将助推我们获得强大、快速、个性化、高效、安全和高度优化的终端体验。
这些变革性的体验,追根溯源都将由 AI 赋能的芯片在底层驱动。
所谓“AI 赋能”,也就是专为 AI 定制和设计的全新计算架构。那么具体该如何让 AI 来定义芯片?
而在这一点上,作为移动通信和人工智能引领者的高通,已经探索出了一条属于自己的路。
前瞻式布局 + 持续迭代,高通已具备终端侧生成式 AI 先发之力
终端侧 AI 和生成式 AI 虽然是不同的概念,但并非泾渭分明,而是彼此促进。生成式 AI 火热产生的巨大算力需求凸显了发展终端侧 AI、构建混合 AI 架构的重要性,而终端侧 AI 的发展也将促进生成式 AI 的大规模扩展。
高通很早就看到了这一点,比如在去年他们就发布《混合 AI 是 AI 的未来》白皮书,指出云端和智能手机、汽车、个人电脑和物联网终端协同工作,能够实现更强大、更高效且高度优化的 AI,这是 AI 普惠的必经之路。
而就在最近,高通又发布了《通过 NPU 和异构计算开启终端侧生成式 AI》白皮书,在这份白皮书中,高通更进一步解读了他们以 Hexagon NPU 为核心的异构计算背后的技术细节,以及在生成式 AI 需求愈发旺盛的趋势下,他们是如何利用 NPU 和异构计算,开启终端侧的丰富生成式 AI 用例的。
具体来说,随着生成式 AI 用例需求在有着多样化要求和计算需求的垂直领域不断增加,专为 AI 定制设计全新的计算架构成为必须要做的事,面对这种多样化的要求和计算需求,需要用不同的处理器来满足,此时,异构计算架构由于能够发挥不同处理器的优势,已经被各大芯片厂商所重视。
在异构计算的架构中,首先需要一个面向生成式 AI 全新设计的神经网络处理器(NPU),同时要有比如中央处理器(CPU)和图形处理器(GPU)形成异构处理器组合,结合 NPU 使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,从而赋能全新增强的生成式 AI 体验。
而说到异构计算,关注高通的朋友相信不会觉得陌生,因为他们其实很早就走在了异构计算的前沿之路上。早在 2007 年,首款 Hexagon DSP 就在骁龙平台上正式亮相,DSP 控制和标量架构是高通未来多代 NPU 的基础。
2015 年,高通在骁龙 820 平台上集成了首个 AI 引擎,支持成像、音频和传感器运算。到了 2018 年,高通则在骁龙 855 中为 Hexagon NPU 增加了 Hexagon 张量加速器。同时异构计算的架构也开始被更多人所了解。
事实上,从 2016-2022 年之间,高通一直在将研究方向拓展至 AI 影像和视频处理,以实现增强的影像能力,同时他们还在这一时期引入 Transformer 层处理,并且在 NPU 中增加了张量运算核心(Tensor Core)。
而在这段时期,骁龙移动平台在 AI 的应用方面也取得了十分出色的成果。从开始的智能相册管理到人脸识别,再到与更多的互联网企业有应用的合作,比如高通和网易合作利用 AI Engine 在部分骁龙移动平台上加速有道实景 AR 翻译功能等等,然后逐渐扩展到了游戏、拍照、交互等领域。特备是在影像领域,用 AI 技术对图像数字信息进行去除噪点、高光抑制、暗光补偿等众多优化处理,让当时众多手旗舰手机的拍照表现,尤其是动态范围表现有了质的提升。
接下来到了 2023 年,生成式 AI 大火,高通则为 Hexagon NPU 引入了对 LLM 和 LVM 的支持,还在 NPU 中增加了 Transformer 支持,以更好地处理基于 Transformer 的模型。现在,Hexagon NPU 能够在终端侧运行高达 100 亿参数的模型,无论是首个 token 的生成速度还是每秒生成 token 的速率,都处在业界领先水平。
此外,高通还引入了微切片推理技术,增加了能够支持所有引擎组件的大共享内存,以实现领先的 LLM 处理能力。
而接下来,Hexagon NPU 则会朝着对模态生成式 AI 的方向努力,比如在最近的 MWC 2024 上,高通展示了在终端上运行的多模态生成式 AI 模型,具体来说,是在第三代骁龙 8 上运行的首个大语言和视觉助理大模型(LLaVA),其能够基于图像输入解答用户的相关问题。这将为终端产品带来全新的能力,
可见过去这些年,高通正是基于其混合 AI 愿景、终端侧 AI 优势和 AI 研发实力,持续推动技术方案迭代升级,在底层上满足了 AI 不断发展的需求。
从稳定性到能效,树立新的 AI 性能和芯片性能标杆
在生成式 AI 变革一切的时代,推动行业迈向 AI 定义芯片,除了需要有针对性的架构设计变化,也需要有面向 AI 芯片的评价体系,以及对应的应用软件生态建设。
首先在评价体系方面,过去我们常用 TOPS 数值来反应 AI 硬件的性能潜力,但是生成式 AI 的领先性能同时需要卓越的硬件和软件,特别是在实际应用中,测试峰值性能、持续稳定性和能效都是必不可少的,而考虑这些评价指标,骁龙移动平台仍然可以展现出行业标杆级的 AI 性能和芯片能力。
这里以目前最先进的第三代骁龙 8 移动平台为例,对比其他 Android 和 iOS 平台竞品,在鲁大师 AIMark V4.3 基准测试中,第三代骁龙 8 的总分分别为竞品 B 的 5.7 倍和竞品 C 的 7.9 倍。在安兔兔 AITuTu 基准测试中,第三代骁龙 8 的总分是竞品 B 的 6.3 倍。
而 MLCommon MLPerf 推理的不同子项中,例如图像分类、语言理解以及超级分辨率等,第三代骁龙 8 的表现也都保持领先。例如在生成式 AI 语言理解模型 MobileBERT 上,第三代骁龙 8 的表现比竞品 A 高 17%。
此外在 2023 年的骁龙峰会上,高通还通过两个生成式 AI 应用展现了第三代骁龙 8 面向大语言模型和大视觉模型通用架构的真是应用性能,其中个人助手演示能够以高达每秒 20 个 tokens 的速度运行 Llama2-7B。在不损失太多精度的情况下,FastStable Diffusion 能够在 0.6 秒内生成一张 512x512 分辨率的图像。
由此可见,高通已经拥有智能手机领域领先的 Llama 和 Stable Diffusion 模型指标。
另外我们还可以顺便看一下面向移动 PC 的骁龙 X Elite 计算平台的 AI 性能,首先其集成的 Hexagon NPU 算力达到 45TOPS,而在面向 Windows 的 UL Procyon Al 基准测试中,骁龙 X Elite 在 ResNet-50、DeeplabV3 等测试中都保持着大幅领先,且基准测试总分分别为 X86 架构竞品 A 的 3.4 倍和竞品 B 的 8.6 倍。
不夸张地说,高通已经早早树立了生成式 AI 时代移动 SoC 的 AI 性能标杆和芯片能力标杆,为生成式 AI 大规模扩展提供了最重要的“算力”支撑。
双管齐下,推动终端侧生成式 AI 生态建设
而在软件和应用生态建设方面,高通则是同时“两手发力”,一方面在软件层面为开发者打造生成式 AI 应用提供便利,另一方面则是积极和终端以及应用厂商合作,推动生成式 AI 创意应用以及终端产品的落地。
比如高通一开始就意识到,让开发者能够获取基于异构计算的 AI 加速,对于终端侧生成式 AI 的规模化扩展至关重要,因此他们打造了 AI 软件栈(Qualcomm AI Stack)。它能够支持目前所有的主流 AI 框架,包括 TensorFlow、PyTorch、ONNX、Keras;它还支持所有主流的 AI runtime,包括 DirectML、TFLite、ONNX Runtime、ExecuTorch,以及支持不同的编译器、数学库等 AI 工具。
此外他们还推出了 Qualcomm AI studio,为开发者提供开发过程中需要用到的相关工具,其中包括支持模型量化和压缩的高通 AI 模型增效工具包(AIMET),能够让模型运行更加高效。高通 AI 软件栈是当前边缘侧的业界领先解决方案。
同时,高通还专注于 AI 模型优化,以实现能效和性能提升。他们认为,快速的小型 Al 模型如果只能提供低质量或不准确的结果,那么将失去实际用处。因此,高通采用了全面而有针对性的策略,包括量化、压缩、条件计算、神经网络架构搜索(NAS) 和编译,在不牺牲太多准确度的前提下缩减 Al 模型,使其高效运行。即使是那些已经面向移动终端优化过的模型我们也会进行这一工作。
例如,量化有益于提升性能、能效、内存带宽和存储空间。Hexagon NPU 原生支持 INT4,高通 AI 模型增效工具包(AIMET)5 提供基于高通 AI 研究技术成果开发的量化工具,能够在降低位数精度的同时限制准确度的损失。
对于生成式 AI 来说,由于基于 Transformer 的大语言模型(比如 GPT、Bloom 和 Llama)受到内存的限制,在量化到 8 位或 4 位权重后往往能够获得大幅提升的效率优势。
高通的这些努力也带来了现实中实际应用的意义,从去年下半年到今年,不少手机厂商都在自家的产品中引入了端侧 AI 大模型,这背后本质上就离不开与高通的深入合作攻关。以 OPPO 为例,他们在 OPPO Find X7 旗舰手机中搭载了自主训练的 AndesGPT 70 亿参数大模型,在此基础上实现了通话摘要、AIGC 消除等热门出圈的功能。
而 70 亿参数的 AndesGPT 大模型能够在终端上以低功耗的方式顺畅运行第三代骁龙 8 平台对 INT4 量化技术的支持也可以提供强大的助力。OPPO 已经可以利用 INT4 量化技术实现对模型的大幅度压缩,让原本占用 28GB 内存的模型现在只需要 3.9GB,降低资源需求的同时也几乎不影响 AI 模型的输出效果。
除了终端硬件厂商,高通也在与软件厂商们合作推动生成式 AI 应用的落地,比如此前有报道称,他们和国内的慧鲤科技,面向第三代骁龙 8 开发了一个神经网络,能够重构照片缺失的部分,即“照片扩充”,它能支持用户对照片进行缩放,让照片看起来具有广角效果,即使并非用广角镜头拍摄。
再回到软件方面,今年的 MWC 上,高通还推出了全新的高通 AI Hub,可以为开发者提供全面优化的 AI 模型库,包括传统 AI 模型和生成式 AI 模型,能够支持在骁龙和高通平台上进行部署。
开发者只需选择应用所需的模型以及其开发应用所使用的框架,然后确定目标平台,例如一款特定型号的手机、或者一款特定型号的高通平台,简单来说,只需要几行代码就可以获取模型,并将模型集成进应用程序,大大节省了开发者在应用中部署 AI 大模型的时间和工作量。
还有在 PC 方面,骁龙 X Elite 最重要的合作者莫过于微软,高通一直在和微软工程团队合作优化全新平台的特性,微软表示,绝大多数顶级应用都将以超快速度和能效在搭载骁龙 X Elite 计算平台的 Windows PC 上原生运行或通过无缝仿真运行,特别是微软自身的生产力应用,包括 Word, Excel, Powerpoint, Edge, Teams, OneDrive, OneNote 和 Outlook 都是原生的。
对于 Windows 11,微软也改进了 Windows Studio Effects、宣布推出了 AI Library,在更新中为 Copilot 和 Paint 等收件箱应用程序中引入生成式 AI,还与诸如 Camo、Luminar Neo、WhatsApp 等进行合作,共同优化 Windows 平台的生成式 AI 应用体验。
总之,高通正基于 AI 软件栈和核心硬件 IP,跨过所有不同产品线,将应用规模化扩展到不同类型的终端,从智能手机到 PC、物联网终端、汽车等等。这无疑为其合作伙伴以及用户带来显著优势,开发一次就能覆盖高通不同芯片组解决方案的不同产品和细分领域进行部署,极大地助力厂商和开发者将打造生成式 AI 应用的效率和收益最大化。
结语
回到开头,在生成式 AI 发展势如破竹的当下,该如何用 AI 重新定义作为底层驱动力的芯片?这个问题,其实我们只需要看看高通是如何做的。
他们通过在移动终端领域前瞻性的持续创新,积累了行业领先的终端侧 AI 技术和能力,在这个过程中以 Hexagon NPU 为核心的异构计算方案经过了充分验证,具备了行业首屈一指的性能和能效优势,这让高通在生成式 AI 时代席卷而来时一开始就有了先发优势,通过混合 AI 架构和领先的技术优势,加上高通在软件生态建设和应用落地方面的开放合作理念,一系列全栈式的布局,让高通真正有能力成为终端侧生成式 AI 时代发展独树一帜的引领者。
而我们,也必将因为高通的这些创新和努力,更快更好的享受到 AI 时代带来的便利。