资讯中心

面向高质量数据建机制搭平台,北京人工智能模型语料中心正式上线!

来源:“发展北京”微信公众号
2024/4/24 10:28:49
20641
导读:面对大模型企业对高质量数据集的迫切需求,北京市充分发挥数据资源丰富、人工智能发展领先的优势,开展了数据基础制度先行区等有益探索。
  人工智能是发展新质生产力的重要引擎、是引领未来的战略性技术。大模型的发展遵循规模增长定律,即算力、数据等资源的规模越大、质量越高,大模型的智能水平就越强。
 
  面对大模型企业对高质量数据集的迫切需求,北京市充分发挥数据资源丰富、人工智能发展领先的优势,开展了数据基础制度先行区等有益探索。
 
  近期,在国家发展改革委等部门的支持下,北京市发展改革委与人民网、高等教育出版社、国家图书馆、北京广播电视台、海淀区融媒体中心等多家数据单位密切对接、深化合作,通过央地联合、政企合作等方式,加快推动人工智能模型语料中心建设,并于4月20日正式上线数据运营平台,首批约1100TB高质量数据集即将向大模型企业开放,为大模型产业提供更加充沛的数据动力。

  数据如何赋能大模型产业发展?和发改君一起来了解下吧~
 
  以平台为支撑,实现数据聚合管理
 
  数据运营平台包括“开源数据+共享数据+高价值数据”三个子平台,能够支持多种数据汇聚和使用形式,将形成国家级数据汇聚和运营管理能力,为大模型产业发展提供坚实的数据支撑。
 
  高质量数据集呈三大显著特征
 
  发改君了解到,一批高质量数据集也正式在北京人工智能模型语料中心上线。这批高质量数据集具有以下三大特征——
 
  权威准确
 
  从源头上保证信息权威准确,避免大模型学到错误的知识、生成错误的内容。
 
  丰富多元
 
  能够为大模型企业提供亟需的文本数据集以及图片、音频视频等多模态数据集。
 
  知识含量高
 
  涉及新闻传播、医药卫生、现代农业、教育教学等众多专业领域。
 
  下一步,北京市发展改革委将对标国际先进,服务国家战略,不断优化工作机制,拓展数据合作的广度和深度,推动更多高质量数据汇聚,并在价值观和技术层面确保数据安全,为北京大模型产业引领发展提供更丰富、更高质量的数据支撑,加快建设具有全球影响力的人工智能创新高地。

热门评论

上一篇:国内仪器行业市场规模呈现稳步增长态势,国产替代正当时

下一篇:方案来了!北京9大领域设备购置与更新可获贷款贴息支持

相关新闻

<