أخبار CCTV: في 17 مايو ، تعلم المراسل من مؤتمر تطوير أمن البيانات 2025 أن بلدي سوف يزرع وتوسيع عدد من المؤسسات في المنبع والمصب في سلسلة صناعة عامل البيانات. تشير التقديرات إلى أنه بحلول عام 2030 ، سيصل حجم صناعة البيانات في بلدي إلى 7.5 تريليون يوان.
البلدان الأول لتصنيف البيانات ، تشير البيانات إلى أنه في عام 2024 ، بلغ إنتاج البيانات السنوي في بلدي 41.06 زيت ، بزيادة سنوي بنسبة 25 ٪. حتى الآن ، هناك أكثر من 190،000 شركة ذات صلة في مجال البيانات في بلدي ، ويتجاوز حجم صناعة البيانات 2 تريليون يوان. استنادًا إلى معدل النمو السنوي الذي يزيد عن 20 ٪ ، سيصل حجم صناعة البيانات في بلدي إلى 7.5 تريليون يوان في عام 2030.
ليو ليهونغ ، مدير إدارة البيانات الوطنية ، إنه يخطط حاليًا لبناء نظام تحتية أفقية وعمودية ومنسقة وقوية للبيانات ، وبناء الهيكل الرئيسي للبيانات الوطنية بشكل أساسي بحلول عام 2029. src = "http://www.china-news-online.com/pic/2025-05-18/1KQBAMCVBSW.PNG" alt = "" //
أصبحت المشاركة المفتوحة للبيانات العامة بمثابة تفكك مهم في تسويق عناصر البيانات. في عام 2024 ، زاد عدد منصات البيانات العامة المحلية في أو أعلى من المستوى البلدي على مستوى البلاد بنسبة 7.5 ٪ ، وارتفع عدد البيانات المفتوحة بنسبة 7.1 ٪ ، وزاد عدد مجموعات البيانات عالية الجودة بنسبة 27.4 ٪ على أساس سنوي. فيما يتعلق بدمج عناصر البيانات والصناعات ، تقوم البلاد بتسريع حواجز الانفتاح أمام مشاركة البيانات العامة ، وتعزيز التكامل العميق للبيانات العامة وبيانات المؤسسات ، وتنشيط "بيانات النوم" الضخمة.
بناء مجموعات بيانات عالية الجودة لتسريع تطوير الذكاء الاصطناعي
في الوقت الحالي ، فقد تجاوزت البيانات عوامل الإنتاج التقليدية وأصبحت القوة الدافعة الأساسية للاختراق في تكنولوجيا الذكاء الاصطناعي والتحول الصناعي. مجموعات البيانات عالية الجودة ليست فقط حجر الزاوية في الأداء في نموذج الذكاء الاصطناعي ، ولكن أيضًا إعادة تشكيل السلسلة الصناعية بأكملها من البحث التكنولوجي والتنمية إلى التنفيذ التجاري. فكيف تم تصميم مجموعات البيانات عالية الجودة؟
أخبر الموظفون الفنيون المراسلين أن بناء مجموعات بيانات نموذجية كبيرة يتضمن بشكل أساسي روابط أساسية مثل جمع البيانات وتنظيف البيانات وشرح البيانات وتقييم الجودة. يحتاج كل رابط إلى تنفيذ البحث الفني المستهدف والتطوير والتكيف بناءً على خصائص التنوع الواسع النطاق والكافي ، والسمات الرأسية القوية للصناعة.
شرح التعليقات التعليمية والتنظيف هي روابط رئيسية في بناء مجموعات بيانات عالية الجودة. يعلم شرح البيانات الذكاء الاصطناعي لـ "إدراك العالم" من خلال "وضع العلامات" (مثل وضع العلامات على "القطط" و "الكلاب" للصور). تشبه البيانات غير المخصصة الكتب المدرسية المشوهة ، مما يؤدي إلى عدم قدرة الذكاء الاصطناعي على التعلم بفعالية ؛ تنظيف البيانات ينقي البيانات عن طريق إزالة التكرارات وتصحيح الأخطاء ، وستؤثر البيانات الفوضوية بشكل مباشر على فعالية التدريب على الذكاء الاصطناعي.
تتجاوز قيمة الإخراج لصناعة وصف البيانات في بلدي 8 مليارات
يمكن ملاحظة أن وضع وصفات البيانات هو رابط رئيسي في بناء مجموعات بيانات عالية الجودة. إذن ما هو تطور الصناعات ذات الصلة في بلدي؟ يوضح "تقرير أبحاث مجموعة البيانات عالي الجودة 2025 الذي صدر عن مؤتمر 2025 لتطوير أمن البيانات أنه مع تكرار الذكاء الاصطناعي وتكنولوجيا النماذج واسعة النطاق ، تجاوزت قيمة الإخراج لصناعة تصنيف البيانات في بلدي 8 مليارات يوان ، وقد دخلت بناء بيانات عالية الجودة مرحلة جديدة واسعة النطاق والموحدة.
يوضح التقرير أني على مستوى الابتكار وتطويره في الوقت الحالي. لا يزال يواجه مشاكل مثل مخزونات البيانات الصغيرة ، وانخفاض الإنتاج ، وجودة مجموعات البيانات غير المتكافئة ، وعدم وجود إرشادات بيانات عالية القيمة ، وكفاءة استخدام البيانات المنخفضة.