此为临时链接,仅用于预览,将在短期内失效。
长江云

25个!湖北发布第二批“数据宝藏”

长江云新闻  2025-05-26 17:11:05
分享到:

5月26日,长江云新闻记者从省数据局获悉,“第二批湖北省高质量数据集”正式发布。自今年3月评选工作启动以来,共征集54家企事业单位申报的70个数据集,数据集总量达577TB。经专家评审,确定25个数据集入选湖北省第二批高质量数据集。

什么是高质量数据集?简单来说,就是高价值、高密度、标准化的数据。例如学生学习需要好教材,厨师学厨需要好师傅、好菜谱。一份食材清晰、佐料精确到克的菜谱就能更好地帮助到厨师。同样,数据就如同训练AI能力的“教辅材料”。但未经筛选整合的海量数据难以通过可信利用转化形成可持续的数据价值。高质量数据集是指经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。

高质量数据集到底可以给行业带来哪些改变?在工程建筑领域,BIM技术作为一种通过建筑信息模型应用,开工前就能为建筑造一个三维立体的“数字孪生兄弟”。而基于此次入选的“交通基础设施多模态三维构件数据集”已成功应用于中交集团发布的央企首个土木工程大模型——蓝翼大模型,实现图文及图-文-点云模态对齐大模型算法。

“交通基础设施多模态三维构件数据集”的模型数据

该数据集由中交集团武汉分公司申报,聚焦于基建行业设计、施工、运维阶段,涵盖图片、三维点云、文本等多模态数据,包含59308个样本,总量约11.8 TB。这些海量的数据,可以帮助人工智能像人眼一样快速“看懂”道路、桥梁、隧道等交通设施,从而加快交通行业智能化升级的步伐。基于该数据集研发的大模型算法,已在BIM构件智能审核领域取得突破性应用,审核周期由数日缩短至数小时,实际应用数据显示可节约人力成本70%,资源发布效率提升80%,支撑日均2000+构件的高效处理。目前,该数据集成果已经推广至公司40余家单位。

截至目前,湖北省数据局已累计发布35个高质量数据集,覆盖科学研究、工业制造、农业农村、智慧能源、交通运输等 14 个重点领域,数据模态涵盖文本、图形图像、视频、结构化数据等多元形式,具备模型适配性强、标注准确性高、行业辐射广的特点。

省数据局相关负责人表示,湖北省数据局将充分发挥行业部门的统筹作用,构建省地协同的工作机制;强化行业“链主”企业的主导作用,引导和鼓励行业龙头企业牵头,吸纳高校、科研院所、行业协会和开源平台等多类主体参与高质量数据集建设;鼓励数商企业、第三方研究机构等大力开展数据技术创新,前沿场景探索,繁荣数据开发利用产业生态;不断推进高质量数据集设施化工作,支持企业围绕业务协同等需求,开展点对点数据流通交易,创新打造行业数据流通交易平台,支持数据交易机构互联互通,打破区域壁垒,畅通数据要素流通渠道,为人工智能产业发展夯实数据根基。

(长江云新闻记者 夏晓青 制图 夏晓青 通讯员 黄靳哲 王孟阳)

责任编辑 徐珊珊
分享到:

便民服务

定制服务