收藏 分享(赏)

东盟国家语料 质量评测规范TGBC 123-2026.pdf

安全生产视频网
上传人:一米阳光 文档编号:424650 上传时间:2026-04-30 格式:PDF 页数:13 大小:4.52MB
下载 相关 举报
东盟国家语料 质量评测规范TGBC 123-2026.pdf_第1页
第1页 / 共13页
东盟国家语料 质量评测规范TGBC 123-2026.pdf_第2页
第2页 / 共13页
东盟国家语料 质量评测规范TGBC 123-2026.pdf_第3页
第3页 / 共13页
东盟国家语料 质量评测规范TGBC 123-2026.pdf_第4页
第4页 / 共13页
东盟国家语料 质量评测规范TGBC 123-2026.pdf_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、东盟国家语料 质量评测规范TGBC 123-2026讲解了面向东盟十国非英语官方语言语料的系统性质量评测体系,涵盖术语定义、评测框架、基础与核心质量要求、质量等级评定规则、评测人员资质及仲裁机制等完整环节。该规范明确了评测对象为文本与语音两类模态、覆盖越南语、泰语、印尼语、马来语、老挝语、缅甸语、柬埔寨语、菲律宾语、文莱马来语及东帝汶德顿语等东盟成员国官方语言的语料资源,适用于人工智能模型训练(含预训练、SFT、RLHF)、ASR/TTS系统开发、平行语料构建、价值观对齐语料筛选及验证集建设等多元技术场景。规范设定了格式合规性、内容真实性、语言准确性、文化适配性、隐私安全性(PII识别与脱敏)

2、、技术指标达标性(如采样频率、位深、WER/SER)等基础质量门槛,并针对不同应用目标细化七大核心评测维度:预训练语料强调多样性与代表性;SFT语料侧重指令覆盖度与回答合理性;RLHF语料关注偏好标注一致性与奖励信号可学习性;ASR/TTS语料聚焦语音清晰度与文本对齐精度;平行语料检验翻译等效性与领域匹配度;价值观语料要求政治中立、文化尊重与正向导向;验证集语料则突出分布代表性与评估鲁棒性。规范还规定了三级质量等级(A/B/C级)判定逻辑、双人背靠背评测机制、专家复核与争议仲裁流程,并对评测人员提出学历背景、多语能力、AI训练经验及持续培训要求,确保评测结果具备公信力、可复现性与跨区域适用性。

3、东盟国家语料 质量评测规范TGBC 123-2026适用于面向东盟市场开展人工智能语料采集、加工、交易与应用的全链条主体,包括语料服务提供商、大模型研发企业、语音技术公司、本地化服务商、高校及科研机构的语言资源建设团队、政府数字治理部门(如东盟各国数字政府管理中心、标准化与计量机构)、跨境数据合规评估机构,以及参与中国东盟信息港建设、中国东盟人工智能合作示范项目的实施单位。该规范特别适用于需通过权威评测获取语料准入资质、参与国家级或区域性AI基础设施招标、申报跨境数据流动试点、对接国际主流大模型训练标准(如Hugging Face、EleutherAI语料质量协议)的技术主体,亦为我国在RCEP框架下推动多语种AI标准互认、支撑“数字丝绸之路”语料底座建设提供可操作的质量治理工具。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 安全标准 > 国家标准

copyright@ 2010-2025 安全人之家版权所有

经营许可证编号:冀ICP备2022015913号-6