《人工智能服务器系统性能测试规范》国家标准征求意见
- 来源:仪表网
- 2024/4/10 9:26:44
- 22989
近日,由中国电子技术标准化研究院 、华为技术有限公司 、中国科学院软件研究所 、北京航空航天大学 、浪潮电子信息产业股份有限公司等单位起草,TC28(全国信息技术标准化技术委员会)归口的国家标准计划《人工智能 服务器系统性能测试规范》征求意见稿已编制完成,现公开征求意见。
当前具有代表性的通用 AI 测试基准、HPC 性能测试基准或服务器技术规范,如 MLPerf、AI Benchmark、benchcouncil、AI-HPL、Linpack、DAWNBENCH、T/CESA 1043-2019《面向深度学习的服务器规范》、GB/T 9813.3《计算机通用规范 第 3 部分:服务器》《人工智能芯片 面向云侧的深度学习芯片测试指标与测试方法》以及 AIIA DNN benchmark 等,在 AI 服务器系统性能测试方面,仍存在一些未解决的问题。
1) 通用服务器技术规范对 AI 服务器系统的性能测试的规定不深入、而且存在同质化倾向。在测试指标方面,仅端到端运行时间、能耗等不能准确反映AI 服务器系统。系统内部运行时效能方面,尚不存在标准化的测试方法。
2) 通用 AI 性能测试,使用公众可获得的模型、数据集。它们与行业(如金融、医疗)实际使用的模型、数据有较大差异。通用测试的结果,对行业指导意义不强,行业业务在 AI 服务器系统计算设施上的运行效果,无直接评判依据。
3) 当前的测试基准对测试科学(test technology)理论的实践相对较薄弱。这些测试基准对性能的理解、解释及测试方法仅限于稳定状态运行时间,而未考虑真实运行环境及系统自身现实状态。
针对以上问题,该标准拟结合测试技术,在通用及行业应用两方面,研究并标准化测试方法、用例,达到较为全面、准确的测试效果。
人工智能服务器系统,包含人工智能服务器、集群和高性能计算设施等形态。人工智能服务器系统,是各类深度学习模型(包含大规模预训练模型)的训练和推理的核心载体,是各行业应用人工智能技术提升生产效率的核心工具。人工智能服务器系统专为处理人工智能计算任务设计,在架构、运算方式和用途用法上,与通用服务器系统有较大差别,其测试过程、负载和指标等,皆有独特性。本文件提出人工智能服务器系统性能基准测试的方法,并对基准测试工具提出技术要求。
本文件规定了人工智能服务器系统,完成深度学习训练及推理任务的性能(运行时间、能耗、实际吞吐率、能效、效率、弹性、承压能力等)测试方法。本文件适用于人工智能服务器系统的性能评估。
版权与免责声明:凡本网注明“来源:智能制造网”的所有作品,均为浙江兴旺宝明通网络有限公司-智能制造网合法拥有版权或有权使用的作品,未经本网授权不
展开全部
热门评论