激活海量“沉睡數據” 2030年我國數據產業規模將達7.5萬億元

央視新聞2025-05-18

17日,記者從2025數據安全發展大會上獲悉,我國將培育壯大一批數據要素產業鏈上下游企業,預計到2030年,我國數據產業規模將達到7.5萬億元。

公共數據開放共享

激活海量“沉睡數據”

作為全球首個將數據納入生產要素的國家,我國已初步構建起門類齊全的數據產業鏈。數據顯示,2024年我國年度數據生產總量達41.06澤字節,同比增長25%。

截至目前,我國數據領域相關企業超19萬家,數據產業規模超2萬億元。按照20%以上的年均增長率測算,2030年我國數據產業規模將達7.5萬億元。

國家數據局局長 劉烈宏:當前我們正謀劃構建橫向聯通、縱向貫通、協調有力的數據基礎設施體系,到2029年要基本建成國家數據基礎設施主體結構。

公共數據開放共享成為數據要素市場化的重要突破口。 2024年全國地市級以上的地方公共數據開放平台數量增長7.5%,開放數據量增長7.1%,高質量數據集數量同比增長27.4%。

在數據要素與產業融合方面,國家正加快打通公共數據共享開放壁壘,推動公共數據與企業數據深度融合,激活海量“沉睡數據”。

構建高質量數據集

加速人工智能發展

眼下,數據已超越傳統生產要素,成為驅動人工智能技術突破與產業變革的核心動力。高質量數據集不僅是人工智能模型性能躍升的基石,更重塑了從技術研發到商業落地的全產業鏈條。那高質量數據集是如何構建的?

在浙江溫州,作為全國數據要素市場化改革的“試驗田”,這裡構建了一套數據安全與合規體系,保障數據要素規模化流動,形成數據交易生態圈,讓更多數據“活了起來”。

浙江省溫州市數據局副局長 金傳拉:打造了469款“實用、好用、安全”的數據產品,在醫療、交通、低空經濟等領域建設了一批高質量數據集。

技術人員告訴記者,構建大模型數據集主要包含數據採集、數據清洗、數據標註、質量評估等核心環節。各環節需要根據大模型數據集的規模大、多樣性足、行業垂直屬性強等特點進行針對性技術研發和適配。

北京大學計算機學院教授 黃鐵軍:文本類的數據,文獻、圖書、論文、研究報告,這些數據大部分已經用了。未來還是需要更多非文本的,比如說圖像、視頻、各種傳感器的,這些數據也是大模型學習的重要來源。

數據標註與清洗是高質量數據集建設的關鍵環節。

數據標註通過“貼標籤”,教會人工智能“認知世界”,未經標註的數據如同亂碼教材,導致人工智能無法有效學習;

數據清洗則通過剔除重複、修正錯誤等操作淨化數據,混亂數據將直接影響人工智能訓練效果。

賽迪研究院副總工程師 劉權:當數據覆蓋足夠廣泛的場景並經過專業標註時,AI模型才能突破“實驗室精度”,真正具備產業落地的能力,帶動數字經濟發展。

我國數據標註產業產值超80億元

在2025數據安全發展大會發布的《2025高質量數據集研究報告》顯示,隨著人工智能、大模型技術迭代,我國數據標註產業產值已突破80億元,高質量數據建設進入規模化、規範化發展新階段。

2024年,我國開發或應用人工智能的企業數量同比增長36%,高質量數據集數量同比增長27.4%,有力支撐人工智能訓練和應用。利用大模型的數據技術企業和數據應用企業同比分別增長57.21%、37.14%。

賽迪研究院副院長 劉文強:我們大模型的參數已經達到了幾千億級別。推進全國七個數據標註基地建設,構建醫療、工業、教育等領域的335個高質量數據集,標註總規模達到1.7萬億TB,支撐了121個國產大模型的研發。

報告顯示,當前我國正加速推動高質量數據集創新發展,但是仍然面臨數據存量小產量低、數據集質量良莠不齊、缺乏主流高價值數據引領、數據利用效率低等問題。

賽迪研究院副總工程師 劉權:做好數據源頭管控,確保數據來源的可靠性、完整性。加強數據隱私與安全保障,推動數據集安全評估能力建設。

(總台央視記者 王世玉 張偉 唐志堅 張延 韓棟)

習近平的文化足跡丨瓷越千年

2025-05-18

【講習所·美美與共】“中國是一個‘活著的文明’”

2025-05-18

激活海量“沉睡數據” 2030年我國數據產業規模將達7.5萬億元

2025-05-18

聚焦學習教育重點靶向發力 在“實”字上下功夫

2025-05-18

聚焦學習教育重點靶向發力 在“實”字上下功夫

2025-05-18

算力基礎設施建設持續提速 將給生活帶來怎樣的變化?

2025-05-18

還在地裡就被買走 從競價平台看小麥市場新變化

2025-05-18

中國汽車加速“出海” 如何保護知識產權?需關註三核心點

2025-05-18