公司动态
Openai从NVIDIA转移到Google TPU,Zhonghao Xinying TPU技术
北京时间于2025年6月28日,路透社报道说,Openai开始了Google的TPU租金,以为CHATGPT和其他AI产品的计算能力提供支持。这一步骤标志着最大的NVIDIA GPU购买者之一Openai也开始在大规模的AI大型模型操作上使用非NVIDIA GPU计算能力。去年6月初,据报道,Openai正在积极招募Google TPU团队的领先研发才能,以开发自动开发的AI特定筹码。除了Openai,Apple,Apple,Anthropic,Safe Searpintelligence和Cohere等公司还租用了TPU的Google Cloud来培训和理解AI。北美AI巨头的战略转变具有AI行业的更大变化:B'Sig模型的主要开发商积极探索NVIDIA GPU以外的后代,寻找基础架构差异,并拥抱由TPU代表的AI特定芯片架构的新方向。三重驱动力bEhind Openai转向Google TPU。 Openai是大型AI模型当前波的雷管和代表。长期以来,OpenAI使用NVIDIA GPU在ChatGPT模型中进行培训(即,通过大型数据集和复杂的神经网络架构进行了强大的研究和推理能力训练了深层的神经网络模型)和推理工作负载(即,启用所使用的模型来组成实时用户)。 OpenAI不仅是最早用于AI计算情况下的NVIDIA GPU天使客户之一,而且还是Nvidia GPU的长期购买者之一。但是,在增长的大型计算和复杂性要求的成长过程中,传统的GPU架构芯片用于大规模训练的局限性越来越多。提高GPU计算成本和供应限制,促使OpenAI探索替代的AI芯片解决方案。通过连接Google Cloud开设的TPU资源(早期仅在Google内部使用),OpenA我使用了针对张量计算的专用芯片,这有望降低计算单时间模型并实现独特性能的成本。 Openai的这一决定来自三个因素的综合影响:矩阵操作和张量。与GPU的一般目标相比,单位消耗单元很高,并且芯片内存水平是积极进取的,这通常可以降低培训和理解的总体成本。供应链的弹性:计算能力的不同合规性可以降低风险,并防止由NVIDIA生产压力,分销延迟和对其他行业的需求引起的瓶颈。确保其研究及其整体研究所需的计算强度。 ·软件生态系统的集成:Google TPA成熟的全栈软件生态系统生态系统生态系统TensorFlow概述附近XLA编译器,TPU特定的运行时,性能分析工具和托管的Google Cloud Services,MIT可以简化MIT模型的开发,大型AI应用程序过程的调整和部署,大大减少了负担工程以及缩短发布的发布。 TPU芯片:AI/ML GPU的架构最初是为图形处理设计的,尤其是实时渲染和图像处理。因此,矩阵和体面结构的向量的操作是特殊优化的,并最终在一般计算设备(GPGPU)上逐渐开发。 GPU具有大量的平行处理单元,具有相对简单的结构,适用于高度平行的活动,例如图形渲染和科学计算,因此在计算机图形,游戏开发,视频/解码,深度学习教育和教育中广泛使用。 TPU是一个专门的小小的小芯片,用于加速机械研究和深度学习活动,尤其是用于培训和理解深度研究模型。 TPU高度优化ZED进行男高音操作。与GPU相比,单个脉动阵列结构的吞吐量和处理效率已大大提高。它特别适合处理操作,例如在神经网络中通常发现的矩阵繁殖。它主要用于机器学习和深入研究模型的培训和推理,尤其是使用Tensorflow框架的任务。与传统的GPU体系结构相比,TPU设计具有许多优势:·严格集成的内存和计算单元:每个TPU核心包括大容量,高带宽片上的内存以及密切的美型矩阵繁殖单位,大幅度降低了数据运动和功耗。 ·出色的推理:这种紧密的集成使TPU能够在较低的能源消耗中实现连续的高通量概念,这对于每天容纳数百万请求的推理工作量至关重要。 ·角涂层:TPU群集配备了空气 - 调解和出色的连贯结构,该结构在集体通信模式下针对共享培训模型进行了优化。与GPU加速的传统簇相比,它可以带来更好的可扩展性和效率来使用资源。 AI计算功率硬件OpenAI的一个关键点采用了Google TPU,该款在AI计算能力基础架构领域中打破了NVIDIA GPU的不稳定概念。长期以来一直占主导地位的NVIDIA现在面临着AI模型提供商的真正压力,作为主要的用户,以使用计算强度,成本控制和供应灵活性来寻找继任者。 Google Cloud赢得了基准客户的OpenAI,他们进一步证实了其TPU性能在特定的AI工作负载中的可比性甚至超过GPU。同时,Openai的举动是AI硬件行业多样性浪潮的一部分,全球越来越多的领先技术公司正在积极发展g他们自己的TPU或类似TPU的AI特异性芯片,并被许多顶级AI大型模型公司广泛采用:早在2019年,英特尔就捕获了来自以色列的AI芯片制造商实验室实验室实验室实验室实验室,并捕获了Gaudi 3,并启动了TPU CHIP,专门研究了4月202日的TPU CHIP,专门研究了4月2024年4月202日的TPU CHIP;预计IBM云将是2025年初首次部署Intel Gaudi 3 AI加速器的人。在2023年7月的XAI会议上,特斯拉和X(即Twitter)马斯克向公众宣布,特斯拉正在开发自己的芯片,这肯定不会被称为GPU,这表明特斯拉可能会开发与传统GPU不同的芯片建筑,以满足特斯拉的需求;全球技术会议上的AI工作负载IGNITE,预计将于2026年正式发布; ·2023年11月底,AWS在“ AWS RE:Invent 2023”会议上发布了为AI开发和机器培训设计的Cloud AI计算芯片; by 2024年底,AWS和人类正式宣布了EC2的联合成立,称为Rainier Ultrapuster Project Reain -the Road -000张Trainium2;系统“苹果智能”苹果基金会模型; ·· TPU优势的自然架构是针对大型AI模型诞生的,因此在面对AI计算方案时,与GPU相比,与GPU相比,它可以改善性能3-5倍。以第一个质量为例,将tpu ai芯片“shina®”的第一批质量弥补,例如,“shiNa®”可以比NVIDIA的现代高级筹码高1.5倍,在处理大型操作的AI模型时,可以减少30%的培训时,可以减少30%的羞耻感。基于综合价格计算,计算功率和能源消耗,“SHINA®”单元计算单元仅为42%。 Openai对Google TPU的拥抱可能并不意味着NVIDIA GPU时期的终结,但是可以清楚地宣布,TPU的AI LED的AI特定AI AI AI定义时代已经到来。成本压力,供应链的变化以及量表的持续扩展将不可避免地使效率因素比传统供应商的收益更为重要。在这种环境中,专用的张量处理器 - 它们来自Google,AWS或新兴公司,例如智人Xinying,Cerebras和Groq-are等新兴公司,由大型AI的下一章所塑造。
上一篇:预兆影子Max Gaming笔记本电脑冷却实用测试:高框 下一篇:没有了