ImageVerifierCode 换一换
格式:PDF , 页数:13 ,大小:4.52MB ,
资源ID:424650    下载:注册后免费下载   免费下载
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.aqrzj.com/docdown/424650.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(东盟国家语料 质量评测规范TGBC 123-2026.pdf)为本站会员(一米阳光)主动上传,安全人之家仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知安全人之家(发送邮件至316976779@qq.com或直接QQ联系客服),我们立即给予删除!

东盟国家语料 质量评测规范TGBC 123-2026.pdf

1、东盟国家语料 质量评测规范TGBC 123-2026讲解了面向东盟十国非英语官方语言语料的系统性质量评测体系,涵盖术语定义、评测框架、基础与核心质量要求、质量等级评定规则、评测人员资质及仲裁机制等完整环节。该规范明确了评测对象为文本与语音两类模态、覆盖越南语、泰语、印尼语、马来语、老挝语、缅甸语、柬埔寨语、菲律宾语、文莱马来语及东帝汶德顿语等东盟成员国官方语言的语料资源,适用于人工智能模型训练(含预训练、SFT、RLHF)、ASR/TTS系统开发、平行语料构建、价值观对齐语料筛选及验证集建设等多元技术场景。规范设定了格式合规性、内容真实性、语言准确性、文化适配性、隐私安全性(PII识别与脱敏)

2、、技术指标达标性(如采样频率、位深、WER/SER)等基础质量门槛,并针对不同应用目标细化七大核心评测维度:预训练语料强调多样性与代表性;SFT语料侧重指令覆盖度与回答合理性;RLHF语料关注偏好标注一致性与奖励信号可学习性;ASR/TTS语料聚焦语音清晰度与文本对齐精度;平行语料检验翻译等效性与领域匹配度;价值观语料要求政治中立、文化尊重与正向导向;验证集语料则突出分布代表性与评估鲁棒性。规范还规定了三级质量等级(A/B/C级)判定逻辑、双人背靠背评测机制、专家复核与争议仲裁流程,并对评测人员提出学历背景、多语能力、AI训练经验及持续培训要求,确保评测结果具备公信力、可复现性与跨区域适用性。

3、东盟国家语料 质量评测规范TGBC 123-2026适用于面向东盟市场开展人工智能语料采集、加工、交易与应用的全链条主体,包括语料服务提供商、大模型研发企业、语音技术公司、本地化服务商、高校及科研机构的语言资源建设团队、政府数字治理部门(如东盟各国数字政府管理中心、标准化与计量机构)、跨境数据合规评估机构,以及参与中国东盟信息港建设、中国东盟人工智能合作示范项目的实施单位。该规范特别适用于需通过权威评测获取语料准入资质、参与国家级或区域性AI基础设施招标、申报跨境数据流动试点、对接国际主流大模型训练标准(如Hugging Face、EleutherAI语料质量协议)的技术主体,亦为我国在RCEP框架下推动多语种AI标准互认、支撑“数字丝绸之路”语料底座建设提供可操作的质量治理工具。

copyright@ 2010-2025 安全人之家版权所有

经营许可证编号:冀ICP备2022015913号-6