专为大语言模型训练定制 微软推出高效FP8混精度训练框架
发布时间:2024-02-01
DoNews11月10日立即,来自Microsoft Azure 和Microsoft研究工作院的两组研究工作人员推出了一个高效的 FP8 分离精度基本,专为大型语言数学方式特训量身定制。
经过测试,与普遍采用的 BF16 分离精度方式相比,FP8 分离精度基本内存租用增加 27% 至 42%,权重梯度网络系统支出显着降低 63% 至 65%。
运行反应速度比普遍采用的 BF16 基本(例如 Megatron-LM)快了 64%,比英伟达 Transformer Engine 的反应较快了 17%。
在特训 GPT-175B 数学方式时,分离 FP8 精度基本在 H100 GPU SDK上节约 21% 的内存,而且相比较 TE(Transformer Engine),特训时间段增加 17%。
佐米曲普坦片功效和作用兰州三代试管婴儿多少钱
吃什么能够改善皮肤松弛抗衰老
喝牛奶拉肚子有什么方法解决吗
芬必得和英太青凝胶哪一种好些
相关阅读
-
“阿根廷布什”的经济实验
币制度下跌折磨的巴西不少人来感叹颇有说服压。不小再一但是,罗塞蒂的自由派论调遭到外界的反感反驳。2023年11月初,也就是巴西布什总统大选第二轮表决从在即,世界113名经济体制学家订立
- 2024-02-10你家小狗怕黑吗?这些方法可以帮到小狗,妈妈赶紧学起来
- 2024-02-103000价位段最强手游体验?不是电竞iPad的一加Ace3如何做到的?
- 2024-02-10梅西百货大涨超16% 消息称其获58亿美元溢价私有化收购契约
- 2024-02-10宝妈别不解,结婚后如果在婆家做以下几件事,可能会被婆婆看不起
- 2024-02-10香爆了!荣光X50 GT来了:骁龙8+、5800mAh电池,又一款千元神机?
- 2024-02-10梅西百货大涨超16% 立即称其获58亿美元溢价私有化收购要约
- 2024-02-10妈妈如果具备这4个特征,说明你很有福气,生出的哥哥颜值会更高
- 2024-02-10太突然!它或将正式“退出演出者”
- 2024-02-10三集买就是!回望今年美股交易:所有技术指标信号都不如长期持有
- 2024-02-10孕期,这3种怀孕可能会“早产”,或许要提前“待产”,不妨一看