1、生殖医学高质量数据集建设规范TJNBDA 0009-2025讲解了生殖医学领域高质量数据集的标准化建设框架,描述了标准的发布背景、结构内容和详细要求。标准由济南市大数据协会发布,起草单位包括山东大学齐鲁第二医院、国控大健康科技(山东)有限公司、有医(山东)健康科技有限公司、山东省立第三医院等,参编单位涉及山东大学齐鲁医院、上海交通大学医学院附属仁济医院等。前言指出文件依据GB/T 1.1-2020起草,可能涉及专利,发布机构不承担识别责任。范围规定本标准适用于生殖医学高质量数据集的采集、存储、治理及共享交换,涵盖总体要求、建设要求、建设内容、安全要求和证实方法。规范性引用文件部分引用多个国家标
2、准,如GB/T 2261.1个人基本信息性别代码、GB/T 35273个人信息安全规范、GB/T 22239网络安全等级保护要求、GB/T 45574敏感个人信息处理安全要求等,确保数据处理的合规性和标准化。术语和定义明确定义数据集为相关数据集合,高质量数据集为用于人工智能大模型训练的数据资源集合,数据元为用属性规定的数据单元,值域为允许值的集合。总体要求强调数据集建设应基于生殖医学专业知识和临床实践,确保科学合理;数据元定义和编码遵循国家标准,保证规范化;架构设计兼顾实践需求和未来发展,支持扩展;便于查询、检索、分析和应用,促进合规共享。建设要求概述建设流程包括数据需求与规划、数据采集、数据
3、预处理、数据标注、数据测试、数据应用,并保障数据安全。数据需求与规划要求分析AI模型在临床、科研、政务等领域的需求,明确数据类型、规模、质量和合规性;构建业务、应用、数据、技术架构;制定涵盖采集、预处理、标注等阶段的计划;预估数据准备工作量。数据采集要求识别来源如公共卫生、医院服务、基层医疗等,采用接口传输、库表交换、图像识别等方式;合法核查包括患者知情同意和监护人同意;采集完整连续数据覆盖初诊、诊疗、妊娠、出生及随访,包括成功、取消、失败周期;建立审计追溯机制绑定患者信息和操作记录。数据预处理要求进行清洗、集成、拆分、统计,组建专家团队或伦理委员会,建立标准化流程;清洗比对确保格式逻辑正确性
4、,对齐多周期患者数据;融合数据实现格式统一、命名标准化、冗余删除。附录提供资料性清洗规则样例、规范性数据集和值域代码。生殖医学高质量数据集建设规范TJNBDA 0009-2025适用于生殖医学领域的数据集建设者、医疗机构管理人员、临床医生、研究人员和数据治理专家。标准针对生殖医学高质量数据集的采集、存储、治理和共享交换过程,为人工智能模型训练提供基础支持。行业领域包括生殖医学临床实践、科研机构、大数据管理公司、健康科技企业、公立医院和私立诊所。具体适用人员涵盖IT技术人员负责数据采集和预处理、伦理委员会成员监督合规性、临床医生提供专业知识、研究人员分析数据应用、政策制定者确保标准实施。标准强调数据安全和隐私保护,适用于处理敏感个人信息的环境,如电子病历、检验报告和物联网设备数据管理。适用场景包括生殖医学AI应用的开发、跨中心数据合作、治疗失败原因分析和成功率统计,促进数据在临床决策、科研创新和政务服务中的有效利用。