专为大语言模型训练定制 微软推出高效FP8混精度训练框架
发布时间:2024-02-01
DoNews11月10日立即,来自Microsoft Azure 和Microsoft研究工作院的两组研究工作人员推出了一个高效的 FP8 分离精度基本,专为大型语言数学方式特训量身定制。
经过测试,与普遍采用的 BF16 分离精度方式相比,FP8 分离精度基本内存租用增加 27% 至 42%,权重梯度网络系统支出显着降低 63% 至 65%。
运行反应速度比普遍采用的 BF16 基本(例如 Megatron-LM)快了 64%,比英伟达 Transformer Engine 的反应较快了 17%。
在特训 GPT-175B 数学方式时,分离 FP8 精度基本在 H100 GPU SDK上节约 21% 的内存,而且相比较 TE(Transformer Engine),特训时间段增加 17%。
佐米曲普坦片功效和作用兰州三代试管婴儿多少钱
吃什么能够改善皮肤松弛抗衰老
喝牛奶拉肚子有什么方法解决吗
芬必得和英太青凝胶哪一种好些
相关阅读
-
菏泽城投15亿元私募曾获上交所受理
乐居经济日报讯 张林霞 6月21日,济南城投控股财团香港)有限公司2022年高端专业股票非公开发行短期公司公司股票新项目长时间更换为已法院。 据悉,公司股票品种为投资公司,
- 2025-05-152022万元数字红包震撼来袭!京东科技助力厦门政府给与惠民福利
- 2025-05-15桐昆股份最新公告:完成发行6亿元时是短期融资券
- 2025-05-156月21日流金岁月发生2攒大宗交易 成交金额189.75万元
- 2025-05-15铁矿石股绿领控股(00061.HK)尾盘急升,一度触及0.51港元,升幅达4.1倍
- 2025-05-156月21日国义招标现1笔折价29.93%的大宗交易 总共成交94.76万元
- 2025-05-15飞力达最新公告:母公司股东减持比例达到3%
- 2025-05-15百年人寿淄博中支多措并举开展安全生产月举办活动
- 2025-05-15百年人寿年初启动2022年7.8全国保险公众宣传日活动
- 2025-05-15惠云钛业收关注函:要求说明投到建新能源材料产业园项目与现有主营业务具体关联
- 2025-05-15时代天使(06699.HK)尾盘走高暴跌近9%,截至发稿,暴跌7.85%,报180港元,成交额1.56亿港元