收藏 分享(赏)

东盟国家语料库 建设规范TGBC 122-2026.docx

安全生产视频网
上传人:一米阳光 文档编号:425567 上传时间:2026-05-08 格式:DOCX 页数:15 大小:50.02KB
下载 相关 举报
东盟国家语料库 建设规范TGBC 122-2026.docx_第1页
第1页 / 共15页
东盟国家语料库 建设规范TGBC 122-2026.docx_第2页
第2页 / 共15页
东盟国家语料库 建设规范TGBC 122-2026.docx_第3页
第3页 / 共15页
东盟国家语料库 建设规范TGBC 122-2026.docx_第4页
第4页 / 共15页
东盟国家语料库 建设规范TGBC 122-2026.docx_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、东盟国家语料库 建设规范讲解了面向东盟十国语言文字及语音数据的语料资源系统化建设全流程技术要求与管理规范,覆盖从需求分析、总体规划、语料结构设计到采集实施、预处理、多类型标注、验证集构建、质量检验及存储管理等全生命周期环节。东盟国家语料库 建设规范描述了语料采集需兼顾来源合法性、语种覆盖性与文化适配性,明确区分SFT语料、RLHF语料、价值观语料、平行语料、ASR语料与TTS语料等六类专业语料的标注原则与技术路径;规定了数据清洗须执行去噪、去重、编码统一与语种识别过滤,数据转换须遵循可计算、可溯源、可互操作的标准化格式,数据脱敏须符合GB/T 455742025对敏感个人信息的处理安全要求;提

2、出了验证集构建的核心指标与分层抽样原则,建立了涵盖人工抽检、自动化规则校验与跨机构交叉复核的三级质检流程;明确了语料分类归档体系、元数据著录字段、多级备份策略及长期存储安全机制。该规范以中国东盟信息港建设为实践背景,融合老挝、越南、泰国、马来西亚、印尼等国官方机构及国内头部AI企业、高校与科研院所的协同经验,突出多语种、多模态、高合规、强治理特征,是支撑中文与东盟语言人工智能模型研发、跨境数字服务落地及区域语言资源共享的关键基础设施标准。东盟国家语料库 建设规范适用于面向东盟国家开展语言资源建设的科研机构、人工智能企业、高校语言实验室、国家级/区域性语料中心、跨境数字服务平台运营单位,以及参与中国东盟信息港、中国东盟数字合作、RCEP框架下语言技术应用项目的数据服务商、标准化组织和政府主管部门。适用于自然语言处理(NLP)、语音识别(ASR)、语音合成(TTS)、大模型训练与对齐、多语种机器翻译、数字内容出海、跨境政务与公共服务智能化等领域的技术研发与工程实施场景。特别适用于承担国家级语料库建设项目、参与中国东盟语言资源共建共享计划、开发面向东盟市场的本地化AI产品及服务的企业与团队,亦可作为高校相关专业课程建设、人才培养方案设计及多语种数据治理能力建设的重要参考依据。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 安全标准 > 国家标准

copyright@ 2010-2025 安全人之家版权所有

经营许可证编号:冀ICP备2022015913号-6