"
首先是训练效率的差距。我们估算,中国目前最好的模型,在算力相同的情况下,可能需要两倍的计算资源才能达到全球顶尖模型的水平。这是由于架构和训练策略的差距。其次是数据利用效率,中国的模型大约只有全球最优水平的一半,也就是说,同样的结果需要两倍的数据和计算量。两者叠加,意味着整体资源消耗是四倍。我们的目标是不断缩小这个差距。
💬 推荐名言
20句推荐
🎲 随机 · 灵感闪现
✨ 名言如星,拾光而行