AI时代数据新变化：从成本和效率中心向价值中心转变|直击2024外滩大会

《科创板日报》9月6日讯（记者张洋洋）数据作为AI大模型最重要的要素，在大模型深入发展之后，数据这个要素目前发生了何种变化？

在2024外滩大会“从DATA for AI到AI for DATA”见解论坛召开，产学研代表深入探讨了在AI时代数据价值的转变，中国工程院院士、清华大学计算机科学与技术系教授郑纬民，昆仑万维 & 天工智能首席科学家、新加坡工程院院士颜水成参会，分享了数据技术的变化趋势及与AI技术的融合。

▍大模型拉动数据与AI全面对齐

数据一定程度上决定了智能的上限，这使得大模型的技术越要突破，数据技术越要与其“对齐”，大模型对数据利用的“贪婪程度”，也影响了数据的存储、生产、加工、流通、消费各个环节的技术走向。

在存储环节，中国工程院院士、清华大学计算机科学与技术系教授郑纬民表示，大模型生命周期的每一环节都与存储系统有关，在数据获取阶段，需要处理海量多模态小文件，在数据预处理时，则要频繁、随机小样本读取，训练时，检查点文件读写对存储系统提出新的需求，推理时，加载模型参数以及保存中间结果尤为关键，这些挑战也催生了新的技术方案诞生。

大数据时代，数据的价值还没来得及充分挖掘，AI时代一到，数据却面临着消耗过快的挑战，这使得合成数据技术成了热门领域。据研究机构Epoch AI在6月发布的报告显示，从2026年起，人类产生的新数据量将比模型学习的新数据量要少，预估到2028年大语言模型将耗尽人类数据。

昆仑万维&天工智能首席科学家、新加坡工程院院士颜水成认为，模型结构还会继续升级，大模型目前推理能力不够等众多的遗留问题，最好的解决途径可能是用合成数据，但做法不同，不应是根据原来的数据合成新的数据，而是通过大模型之间相互的对话、讨论、评价，最后产生出更好、更高质量的数据，这些数据将会大大去提升大模型的效能。

基础数据库也在加强与AI的融合。国产分布式数据库OceanBase CTO杨传辉介绍了如何通过一套系统同时支持SQL+AI，支持向量数据库，并通过AI技术优化数据库开发和管理工具。

蚂蚁技术研究院院长陈文光提出，向AI“对齐”需要从底层系统角度出发，包括硬件的结构和对应的编程语言、编译系统等。他介绍了在人工智能、科学计算与大数据处理（FABS：Fused AI, Big Data and Science）融合的计算模式思考。

▍探索AI时代的数据战略与实践

从大数据时代到AI时代，数据体系正在从成本和效率中心向价值中心转变，蚂蚁集团平台技术事业群副总裁骆骥认为，在AI时代，数据资产本身的规模、多样性、品质等是决定智能化效果的关键因素。数据更加直接地影响到智能化应用的效果，这就意味着，从数据资产的生产、加工与服务、消费与应用等各个环节都需要围绕数据的价值化这一全新的视角去构建相应的体系与技术能力。

骆骥分享了基于蚂蚁集团业务场景下，AI时代的蚂蚁智能数据体系探索与实践。

他表示，在过去的两年里，蚂蚁集团一直在构建一个围绕融合数据湖、能提供各种数据驱动的智能化应用服务与能力的数据体系，其底层基于全模态存储与计算引擎，上层能支持丰富的智能化业务应用场景。

在底层，蚂蚁构建了行列混存，以及面向新搜索、新交互的向量数据库能力，并且为大模型训练打造了极致的全模态缓存加速的新型存储技术产品。

在核心的融合数据湖里，蚂蚁致力于将结构化数据、半结构化数据与非结构化数据充分融合。除了传统的数据管理与治理、端云/跨云的数据融合和隐私保护之外，还重点关注统一元数据、支持三线一致和Single Source of Truth，以及特别针对非结构化数据的安全可信与品质保障能力等几大关键要素。

在上层的数据应用中，包含了高价值数据的生产（包括数据引入、数据感知、数据标注、数据合成）、全模态的数据研发和面向机器与智能体的新特征服务，以及围绕数据的分析与科学实验工程体系等。

“数据技术领域也正在飞奔进入一个全新的历史阶段。”骆骥说。

AI时代数据新变化：从成本和效率中心向价值中心转变|直击2024外滩大会

相关推荐

格创东智人机协同：端侧精益，改写柔性生产“新范式”

格创东智引领武汉制造业迈向“三化”新时代

苹果智能海外上线国产厂商押注AI 欲与之一战

国资委主任张玉卓：将适度超前建设一批智能算力中心

国资委主任张玉卓：加快提升人工智能技术和产品供给能力探索建立一批任务导向、跨所有制的产业发展共同体

最新

顺丰控股：第三季营收724.51亿元归母净利润28.10亿元

TCL科技：前三季度净利润15.25亿元显示业务净利润超44亿元

小米正式公布澎湃 OS 2 系统：CPU 空转时长降低 19%

蓝色光标三季度营收145.65亿元归母净利润1.23亿元

安克创新：第三季度净利增长52.44%

海螺水泥：2024年第三季度净利润同比下降15.13%

热点

基于航顺芯片车规级MCU HK32A040C8T3的汽车拨档开关解决方案

"Google Gemini与ChatGPT对比：Gemini更胜一筹，你选对了吗？"

百万纯电超跑仰望U9，震撼登场，极致性能，引领潮流。

AI搜索大比拼：夸克、豆包、天工，谁更强？一睹为快！

AI与细菌助力，阿尔茨海默症治疗药物研发进展显著。

特斯拉计划裁员10%，精简团队，提升效率，引发市场关注。

马上消金外包催收公司员工被警方带走涉及个人信息安全

理想AI+区块链项目四：创新融合，引领未来，重塑行业格局。

"中兴通讯携手中国电信，高铁5G商用服务创新突破，引领新时代。"

谷歌八才子揭秘AI奥秘，引领未来科技浪潮！

AI时代数据新变化：从成本和效率中心向价值中心转变|直击2024外滩大会

相关推荐

格创东智人机协同：端侧精益，改写柔性生产“新范式”

格创东智引领武汉制造业迈向“三化”新时代

苹果智能海外上线 国产厂商押注AI 欲与之一战

国资委主任张玉卓：将适度超前建设一批智能算力中心

国资委主任张玉卓：加快提升人工智能技术和产品供给能力 探索建立一批任务导向、跨所有制的产业发展共同体

最新

顺丰控股：第三季营收724.51亿元 归母净利润28.10亿元

TCL科技：前三季度净利润15.25亿元 显示业务净利润超44亿元

小米正式公布澎湃 OS 2 系统：CPU 空转时长降低 19%

蓝色光标三季度营收145.65亿元 归母净利润1.23亿元

安克创新：第三季度净利增长52.44%

海螺水泥：2024年第三季度净利润同比下降15.13%

热点

基于航顺芯片车规级MCU HK32A040C8T3的汽车拨档开关解决方案

"Google Gemini与ChatGPT对比：Gemini更胜一筹，你选对了吗？"

百万纯电超跑仰望U9，震撼登场，极致性能，引领潮流。

AI搜索大比拼：夸克、豆包、天工，谁更强？一睹为快！

AI与细菌助力，阿尔茨海默症治疗药物研发进展显著。

特斯拉计划裁员10%，精简团队，提升效率，引发市场关注。

马上消金外包催收公司员工被警方带走 涉及个人信息安全

理想AI+区块链项目四：创新融合，引领未来，重塑行业格局。

"中兴通讯携手中国电信，高铁5G商用服务创新突破，引领新时代。"

谷歌八才子揭秘AI奥秘，引领未来科技浪潮！

苹果智能海外上线国产厂商押注AI 欲与之一战

国资委主任张玉卓：加快提升人工智能技术和产品供给能力探索建立一批任务导向、跨所有制的产业发展共同体

顺丰控股：第三季营收724.51亿元归母净利润28.10亿元

TCL科技：前三季度净利润15.25亿元显示业务净利润超44亿元

蓝色光标三季度营收145.65亿元归母净利润1.23亿元

马上消金外包催收公司员工被警方带走涉及个人信息安全