数据与AI双引擎驱动智能未来,2025外滩大会论数据进化之道

中国网财经2025-09-13

中国网财经9月13日讯 可供大模型训练的人类数据越来越少,Scaling Law正在缓慢失效,智能的上限,如何再次突破?

9月12日,在2025Inclusion·外滩大会“Data meets AI:智能时代的双引擎”见解论坛上,产学界的多位权威专家给出了新解法:数据驱动了AI发展,AI也让数据迎来了新一轮的进化,双引擎融合驱动才是演进方向。

论坛由中国人工智能学会、上海交通大学与蚂蚁集团联合主办。

高质量数据构建成为大模型发展的新突破口

数据作为智能时代的第一引擎,正从辅助角色转变为核心驱动力。

复旦大学教授肖仰华指出,当前大模型发展正面临严峻的"数据墙"困境,无标签语料对模型性能提升的贡献日益减弱,更大规模数据带来的性能提升与所需的训练开销相比性价比显著降低。他认为,大模型数据科学需要从专家经验阶段发展到量化科学、直至自进化阶段。“大模型的数据实践需要屠呦呦式的研究,从海量杂乱的数据中提取出决定模型能力的关键成分”。

复旦大学教授肖仰华 复旦大学教授肖仰华

肖仰华分享了通过语法复杂度指标和累积分布采样方法筛选高质量语料的实践,实验表明,从100亿个token的财经语料中仅筛选20%的高质量数据进行训练,对模型进行持续预训练,相比于全量数据持续预训练,在领域问答任务上的准确率提升1.7%。

上海交通大学特聘教授翟广涛强调无论是精炼数据还是合成数据,都需要质量优先,而数据质量分析要从“体验质量”入手,考虑人的体验,也考虑机器的体验,进而在数据为中心的范式下进一步提升大模型性能。

海天瑞声CEO李科从产业实践角度分享了全球AI数据行业的发展趋势。他认为,数据产业正在经历从劳动密集型向技术密集型和知识密集型的重大转型。通过动捕数据、自动驾驶标注、思维链数据集等多个实际案例,李科展示了高质量数据如何服务千行百业。

上海库帕思科技有限公司董事长山栋明说,模型之变引领“数据质变”,他表示高质量数据集应满足VALID²(鲜活度、真实性、大样本、完整性、多样性、高知识密度)要求,并详细介绍了语料数据在方法论、基础设施和行业生态三个方面的体系化重构探索。

技术创新推动数据价值释放

作为第二引擎,AI技术正在深刻改变数据处理和利用的方式。

光轮智能总裁杨海波表示,具身智能对数据的需求量是大语言模型和自动驾驶的上千倍。合成数据是实现具身智能Scaling Law的重要基础,他强调,合成数据必须满足四个必备条件:真实的物理交互、人在环的示范、场景足够丰富和数据闭环验证。杨海波认为,“站在岸上学不会游泳”,机器人需要进入物理可交互的环境去获取物理世界反馈来优化模型。

蚂蚁技术研究院数据智能实验室负责人赵俊博认为,下一代RL训练法则应该从“对与错”转向“好与更好”。"他探索的"Rubric即Reward"新机制,只需使用5k数据和1万条评分标准构建高效RL回路,就能摆脱对海量SFT数据的依赖,实现"品味对齐"。他说,这种方法可以在人文、创意、情感等领域实现风格化生成,去除"机器味道"。

LanceDB CTO徐磊分享了开源多模态数据湖的创新实践。他介绍,与传统的Parquet、ORC等格式不同,新设计的Lance格式既是文件格式又是表格式,具备零拷贝数据演化和高效点查两大核心特性。徐磊举了Runway ML的案例,该公司将PB级视频数据导入Lance后,能够像使用SQL一样简单管理,实现30多位AI工程师在同一个主表上并行进行特征工程迭代。

NVIDIA互联网解决方案架构高级总监陈川介绍了驱动生成式AI的高效数据处理创新,分享了从文本到多模态的GPU加速解决方案。

在圆桌讨论环节,专家围绕展开Data Infra的重构与机遇深入讨论。专家一致认为,随着计算范式的变化,数据处理技术无论主动还是被动,都需要重构与再定义。重构是为了解决已经面临的问题,再定义则是着眼于未来,解决可能面临的问题。

本次论坛展示了数据与AI双引擎协同发展的最新成果,为智能时代数据基础设施建设提供了参考和实践路径。与会专家表示,只有实现数据与AI的深度融合,建立完善的数据标准体系和质量评估框架,才能真正释放智能技术的巨大潜力,推动智能时代向更高层次发展。

美联邦调查局:柯克枪杀案现场发现与嫌疑人匹配的DNA

2025-09-16

乌克兰加入欧盟谈判审查全部结束

2025-09-16

内塔尼亚胡承认以色列经济被孤立 反对党批其自食苦果

2025-09-16

为培养社会主义建设者和接班人作出新的更大贡献——中国关工委成立35周年回眸

2025-09-16

元朗躁父持刀挾持5月大女反鎖單位 與警對峙3小時降服被捕

2025-09-16

九龍城區居民聯會第十四屆換屆典禮圓滿舉行

2025-09-16

屯門雞肉飯含菌超標 有關食肆須暫停營業徹底清潔消毒

2025-09-16

九龍灣地盤老鼠遇衝鋒警 揭盜逾百銅喉15捆銅電線斷正

2025-09-16

藝術家自發推動「香港北都會文藝發展」 議員梁子穎冀政府多支持本地藝術創作

2025-09-16

鐵通插城巴│受傷車長需轉院留醫 警尋真兇拘貨車男司機

2025-09-16

(有片)上半年青少年被捕人數按年下跌14% 新一冊《師長攻略》加入「依托咪酯」主題

2025-09-16

(有片)親身落水拍攝 難忘蔣璐霞險遇溺林超賢無懼流言 務實求變

2025-09-16

从“特色产业”到“富民强村”——吉林省白城市种植辣椒成为拉动乡村经济新引擎

2025-09-16

山西:兴水治水 古泉新涌

2025-09-16

河南片区组团,为何需要“一轴一带一网格”?

2025-09-16

承建商8員工認替工人「掃臉」呃工資 一管工率先獲囚8個月

2025-09-15

【創領未來】嶺大畢業生成立藝術療癒企業 以創新元素推動身心健康發展

2025-09-15

桂冠論壇11月5日舉行 匯聚科學之光 啟迪創新力量

2025-09-15

藍田七旬漢涉販毒被捕 警檢海洛英及「藍精靈」

2025-09-15

香港網絡安全業界代表團出席2025年國家網絡安全宣傳周 探討數字時代網絡安全挑戰與發展機遇

2025-09-15

盧寵茂呼籲市民接種流感疫苗 孕婦接種科興會經醫生評估

2025-09-15

進口未完稅香煙未作申報及進口另類吸煙產品 抵港旅客被判囚罰款

2025-09-15

大快活推出三大「快活橙」優惠活動 送出6部「快活橙智能手機」

2025-09-15

全港第9間社區客廳啟用 年服務61萬人次

2025-09-15

鐵通插城巴│車長胸口遭擊傷仍不忘乘客安全 城巴:展現敬業精神

2025-09-15

紅磡的士遇查檢依托咪酯等毒品 警拘4男最細15歲

2025-09-15

攜依托咪酯煙彈及電子煙裝置入境 男旅客被判囚兩個月

2025-09-15

陳國基會見歐盟駐香港辦事處主任 重申強烈不滿和反對歐盟委員會年度報告

2025-09-15

政府籲提防偽冒政府官員訪談詐騙短片及文章 事件已交警方調查

2025-09-15

長洲七旬翁騎電動單車 涉4宗罪保釋11月再報到

2025-09-15

西九交警放蛇打擊白牌車 拘兩司機扣查兩車

2025-09-15

尼泊尔临时政府确定首批3位部长

2025-09-15

原海南省农村信用社联合社党委书记、理事长利光秘被开除党籍

2025-09-15

商务部新闻发言人就美方要求相关方面以进口俄罗斯石油为由对华加征关税情况答记者问

2025-09-15

四川乐山市犍为县发生4.0级地震

2025-09-15

事关食用油等液态食品道路散装运输 市场监管总局公开征求意见

2025-09-15