当前位置: 华文世界 > 科技

AI运算受限电力?微软工程师:同州部署超过10万片H100,电网就会崩溃

2024-03-28科技

随着AI运算要求越来越快,能源也成为值得担忧的议题。虽然Open AI的GPT-5尚未发布,但目前有消息称OpenAI似乎已着手训练GPT-6,而外传7月发布Llama 3的Meta,也有望提早至6月推出。

AI创业公司OpenPipe联合创办人Kyle Corbitt在社交媒体平台X上分享,GPT-5有望4月下旬发布,Meta Llama 3则是6月发布,以打败另一家法国小创业公司Mistral。

GPT-5 AND LLAMA 3 TIMELINE LEAKS

Highest confidence rumors I've heard are late April for GPT-5 and early June for Llama 3 (expected to beat Mistral at all sizes).

Anyone hear something different? Reply in thread to confirm.

— Kyle Corbitt (@corbtt)March 25, 2024

接着Corbitt发布另篇文章,表示与微软工程师讨论有关GPT-6的训练集群项目及在新版本中遇到的问题。该位工程师抱怨对不同区域的GPU之间无限级别连接(infiniband- class links),实在非常痛苦。

Corbitt续问「为何不将训练集群集中同一个区域?」对方回应有尝试过,但无法在同一州(a single state)下放至超过10万片p00 GPU,否则会导致电网瘫痪。

Spoke to a Microsoft engineer on the GPT-6 training cluster project. He kvetched about the pain they're having provisioning infiniband- class links between GPUs in different regions.

Me: 「why not just colocate the cluster in one region?"

Him: 「Oh yeah we tried that first. We…

— Kyle Corbitt (@corbtt)March 25, 2024

目前不确定微软工程师所提到的a single state是指同一州,还是指同一个状态,但据市调机构Factorial Funds报告显示,OpenAI的文本生成视频模型Sora一个月内使用4,200至10,500片p00 GPU,其中单个p00能在约12分钟内生成一个一分钟视频,或者每小时约5个一分钟视频。而在Sora高峰时期需要72万个p00 GPU。换言之,Sora高峰时期如果训练集群摆放在同个位置,可能是七个州的电网崩溃。

Corbitt指出,不确定新GPT版本叫GPT-5、GPT-4.5还是带企业扩展的GPT-4J。但不可否认的是,越强大的AI出来,开发这些模型的成本也就越来越高,面临的环境问题也越大。

Open AI刚刚免费发布GPT-4 Turbo,目前已知GPT-5计划今年稍晚时发布。

(首图来源:shutterstock)