सीसीटीवी न्यूज: 17 मई को, रिपोर्टर ने 2025 डेटा सुरक्षा विकास सम्मेलन से सीखा कि मेरा देश डेटा फैक्टर उद्योग श्रृंखला में कई अपस्ट्रीम और डाउनस्ट्रीम उद्यमों की खेती और विस्तार करेगा। यह अनुमान है कि 2030 तक, मेरे देश के डेटा उद्योग का पैमाना 7.5 ट्रिलियन युआन तक पहुंच जाएगा।
राष्ट्रीय डेटा प्रशासन के निदेशक, लियू लेहोंग ने कहा कि वह वर्तमान में एक क्षैतिज, ऊर्ध्वाधर और समन्वित और मजबूत डेटा इन्फ्रास्ट्रक्चर सिस्टम बनाने की योजना बना रहा है, और मूल रूप से 2029 तक राष्ट्रीय डेटा इन्फ्रास्ट्रक्चर की मुख्य संरचना का निर्माण करता है। src = "http://www.china-news-online.com/pic/2025-05-18/1kqbamcvbsw.png" alt = "" "//
सार्वजनिक डेटा का खुला साझाकरण डेटा तत्वों के विपणन में एक महत्वपूर्ण सफलता बन गई है। 2024 में, नगरपालिका स्तर पर या उससे ऊपर स्थानीय सार्वजनिक डेटा ओपन प्लेटफार्मों की संख्या में 7.5%की वृद्धि हुई, खुले डेटा की संख्या में 7.1%की वृद्धि हुई, और उच्च गुणवत्ता वाले डेटा सेटों की संख्या में 27.4%वर्ष-दर-वर्ष में वृद्धि हुई। डेटा तत्वों और उद्योगों के एकीकरण के संदर्भ में, देश सार्वजनिक डेटा साझा करने के लिए उद्घाटन-अप बाधाओं को तेज कर रहा है, सार्वजनिक डेटा और उद्यम डेटा के गहरे एकीकरण को बढ़ावा दे रहा है, और एक बड़े पैमाने पर "नींद डेटा" को सक्रिय करता है।
कृत्रिम बुद्धिमत्ता के विकास में तेजी लाने के लिए उच्च गुणवत्ता वाले डेटा सेट का निर्माण
वर्तमान में, डेटा ने पारंपरिक उत्पादन कारकों को पार कर लिया है और कृत्रिम बुद्धिमत्ता प्रौद्योगिकी और औद्योगिक परिवर्तन में सफलताओं के लिए मुख्य ड्राइविंग बल बन गया है। उच्च गुणवत्ता वाले डेटा सेट न केवल कृत्रिम खुफिया मॉडल प्रदर्शन में लीप की आधारशिला हैं, बल्कि तकनीकी अनुसंधान और विकास से लेकर वाणिज्यिक कार्यान्वयन तक पूरी औद्योगिक श्रृंखला को भी फिर से आकार देते हैं। तो उच्च गुणवत्ता वाले डेटा सेट कैसे बनाए जाते हैं?
तकनीकी कर्मियों ने संवाददाताओं को बताया कि बड़े मॉडल डेटा सेट का निर्माण मुख्य रूप से डेटा संग्रह, डेटा सफाई, डेटा एनोटेशन और गुणवत्ता मूल्यांकन जैसे कोर लिंक शामिल हैं। प्रत्येक लिंक को बड़े पैमाने पर, पर्याप्त विविधता और उद्योग की मजबूत ऊर्ध्वाधर विशेषताओं की विशेषताओं के आधार पर लक्षित तकनीकी अनुसंधान और विकास और अनुकूलन को पूरा करने की आवश्यकता है।
डेटा एनोटेशन और सफाई उच्च गुणवत्ता वाले डेटा सेट के निर्माण में महत्वपूर्ण लिंक हैं। डेटा एनोटेशन "लेबलिंग" (जैसे "लेबलिंग" कैट्स "और" कुत्तों "को तस्वीरों के लिए" लेबलिंग "द्वारा" दुनिया को संज्ञेय "करने के लिए कृत्रिम बुद्धिमत्ता सिखाता है। अनलेबेल्ड डेटा गार्ड पाठ्यपुस्तकों की तरह है, जिसके परिणामस्वरूप प्रभावी ढंग से सीखने के लिए कृत्रिम बुद्धिमत्ता की अक्षमता होती है; डेटा क्लीनिंग डुप्लिकेट को हटाकर और त्रुटियों को सही करके डेटा को शुद्ध करता है, और अराजक डेटा सीधे कृत्रिम बुद्धिमत्ता प्रशिक्षण की प्रभावशीलता को प्रभावित करेगा।
मेरे देश के डेटा लेबलिंग उद्योग का आउटपुट मान 8 बिलियन से अधिक है
यह देखा जा सकता है कि उच्च गुणवत्ता वाले डेटा सेट के निर्माण में डेटा लेबलिंग एक महत्वपूर्ण लिंक है। तो मेरे देश के संबंधित उद्योगों का विकास क्या है? 2025 डेटा सुरक्षा विकास सम्मेलन द्वारा जारी "2025 उच्च-गुणवत्ता वाले डेटा सेट अनुसंधान रिपोर्ट" से पता चलता है कि कृत्रिम बुद्धिमत्ता और बड़े पैमाने पर मॉडल प्रौद्योगिकी के पुनरावृत्ति के साथ, मेरे देश के डेटा लेबलिंग उद्योग का आउटपुट मूल्य 8 बिलियन युआन से अधिक हो गया है, और उच्च-गुणवत्ता वाले डेटा के निर्माण ने बड़े पैमाने पर और मानकीकृत विकास के एक नए चरण में प्रवेश किया है।