3. 升级至第五代Tensor Core,其采用FP4进行矩阵乘法或累加运算,能让吞吐量提升了一倍,且其精确度上的损失相对较小,能减少对带宽的需求+显著降低显存占用。