首页 > 活动线报 > 每日福利 > 如何定义一款新的AI处理器?AI芯片案例分析

如何定义一款新的AI处理器?AI芯片案例分析

发布时间:2024-10-20 22:09:38来源: 13041198719
AI大模型的热潮不断,预计未来十年,AGI时代即将到来。但目前支撑AI发展的GPU和AI专用芯片,都存在各种各样的问题。 那么,在分析这些问题的基础上,我们能不能针对这些问题进行优化,重新定义一款能够支持未来十年AGI大模型的、足够灵活通用的、效率极高性能数量级提升的、单位算力成本非常低廉的、新的AI处理器类型?
 
01.首先分析场景特点,做好软硬件划分
 
1.1 一方面,AI处理器存在问题
 
差不多是从2015年前后,开始兴起了专用AI芯片的浪潮。以谷歌TPU为典型代表的各种架构的AI专用芯片,如雨后春笋般涌现。 但从AI落地情况来看,效果并不是很理想。这里的主要问题在于:
 
AI芯片专用设计,把许多业务逻辑沉到硬件里,跟业务紧密耦合;但业务变化太快,算法不断更新,芯片和业务的匹配度很低。
 
AI算法是专用的,面向具体场景,比如人脸识别、车牌识别,各种物品识别等。综合来看,算法有上千种,加上算法自身仍在快速演进,加上各种变种的算法甚至超过数万种。
 
用户的业务场景是综合性的,把业务场景比做一桌宴席,AI芯片就是主打的那道主菜。对AI芯片公司来说,自己只擅长做这一道菜,并不擅长做其他的菜品,更不擅长帮助用户搭配一桌美味可口、荤素均衡、营养均衡的宴席。
 
1.2 另一方面,GPU也存在问题
 
NVIDIA的GPU是通用并行处理器:
 
性能效率相对不高,性能逐渐见顶。要想算力提升,只能通过提升集群规模(Scale Out,增加GPU数量)的方式。
 
增加集群规模,受限于I/O的带宽和延迟。一方面,集群的网络连接数量为O(n^2),连接数量随着集群规模的指数级增加;另一方面,AI类的计算任务,不同节点间的数据交互本身就非常巨大。因此,受阿姆达尔定律影响,I/O的带宽和延迟,会约束集群规模的大小。(在保证集群交互效率的情况下,)目前能支持的集群规模大约在1500台左右。
 
还有另外一个强约束,就是成本。据称GPT5需要5万张GPU卡,单卡的成本在5W美金左右,再加上其他硬件和基础设施已经运营的成本。仅硬件开销接近50亿美金,即350亿RMB。这对很多厂家来说,是天文数字。
 
1.3 问题的核心:芯片的灵活性要匹配场景的灵活性
 
首先,仍然是从我们之前很多文章中提到的这个“从软件到硬件的典型处理器划分图”开始分析。
 
 
 
指令是处理器软件和硬件的媒介:有的指令非常简单,就是基本的加减乘除等标量计算;有的指令非常复杂,不是纯粹的向量、矩阵或多维张量计算,而是各种维度计算再组合的一个混合的宏指令,或者说是一个算子甚至算法,就对应到一条(单位计算)指令。 AI专用处理器是一种DSA,是在ASIC基础上具有一定的可编程能力。性能效率足够好,但不够灵活,不太适合业务逻辑和算法快速变化的AI场景。而GPU足够灵活,但性能效率不够,并且性能逐渐达到上限。 从目前大模型宏观发展趋势来看:
 
Transformer会是核心算法,在大模型上已经显露威力。未来模型的底层算法/算子会逐渐统一于Transformer或某个类Transformer的算法。从此趋势分析可得:AI场景的业务逻辑和算法在逐渐收敛,其灵活性在逐渐降低。
 
此外,AI计算框架也走过了百家争鸣的阶段,目前可以看到的趋势是,PyTorch占据了绝大部分份额。这说明整个生态也在逐渐收敛,整个系统的迭代也在放慢。
 
这两个趋势都说明了,未来,“专用”的AI芯片会逐渐地绽放光芒。当然了,作为AI芯片的公司,不能等,而是需要相向而行:
 
需要定义一款,其性能/灵活性特征介于GPU和目前传统AI-DSA处理器之间的,新型的通用AI处理器。“比GPU更高效,比AI芯片更通用”。
 
通用性体现在两个方面:
 
一方面,处理器的通用性。能够适配更多的算法差异性和算法迭代,覆盖更多场景和更长的生命周期。
 
另一方面,面向AGI通用人工智能。不再是专用AI的“场景千千万,处理器千千万”,架构和生态完全碎片;而是一个通用的强人工智能算法,一个通用的强处理器平台,去强智能化的适配各种场景。
 
02.大核少核 or 小核众核?
 
 
 
CPU是大核,但通常一个芯片里只有不到100个物理核心;而GPU是小核众核的实现,目前通常在上万个核左右;而传统AI芯片,通常是大的定制核+相对少量核(100核以内)的并行。
 
 
 
此外,一个很重要的现象是,GPU核,不再是之前只有CUDA核的标量处理器,而是增加了很多Tensor核的类协处理器的部分。新的GPU处理器不再在处理器核的数量上增加,反而把宝贵的晶体管资源用在单个核的协处理器上,把单核的能力做更多的强化。 因此,新型通用AI芯片需要:
 
在目前工艺情况下,并行的单芯片处理器核心(GA,通用AI处理器核心)数量在500-1000之间比较合适;
 
单个GA采用通用高效能CPU核(例如定制的RISC-v CPU)+强大的Tensor协处理器的方式。
 
03.极致扩展性,多层次强化内联交互
 

每日福利更多>>

从SUV王者到越野专家,长城把″聚焦″这个方法论贯彻始终 国产焕新Model Y 或是特斯拉5月份澳大利亚销量主要来源 小桔充电与比亚迪达成战略合作 共建超充网络开放生态 一汽奥迪Q6L e-tron:让华为智驾有“德味”,比“堆料”更懂本质 蔚来精细化管理研发投入:CBU机制推行后,非必要研发项目不予立项 苹果iPhone 13 5G手机128GB午夜色到手价1584元 多彩小直屏vivo S30系列发布 官方称vivo X Fold5 将打破 X Fold3最轻记录 荣耀 Earbuds 4i 耳机首销:50dB 降噪、11mm 镀钛低音单元,249 元 帕沃森摸鱼战士手机壳限时特惠9.1元 荣耀进军机器人!手机厂商扎堆机器人赛道 环球、华纳和索尼音乐正与两初创公司磋商AI音乐权限 小米618推出线下主题科技展,国内首款自主研发3 nm旗舰亮相展出 东风汽车贺琳曼详解车载光通信的技术研究与应用实践 大众报业集团驻地媒体联合采访团走进山东凤凰制药股份有限公司 沪深两市今日成交额合计1.19万亿,比亚迪成交额居首 吉利集团旗下电池公司吉曜通行:预计到2027年形成70GWh电池产能规模 2025款长安UNI-Z上市,燃油版11.59万起、PHEV版12.69万起 阿电入乌储能采购开标:0.46-0.58元/Wh,构网型600MWh,比亚迪最低,阳光最高 日系车质量投诉霸榜,一汽丰田“开不坏”神话破灭了? 小鹏MONA发布会变身车友派对,欧阳娜娜亮相何小鹏信心十足 16个区全覆盖!蔚来能源实现天津换电县县通 限时先享价7.99万元起,“国民智趣纯电SUV”东风纳米06正式上市! 35.99万-40.99万!乾崑智驾奢享旗舰MPV,传祺向往M8乾崑正式上市 10万级纯电家轿,610km续航+2C快充,试驾五菱星光EV 3000亿!长安汽车董事长朱华荣定下今年销量目标,不会因重组改变既定战略 比亚迪打响价格战!比亚迪海豹06DM-i旅行版是否为务实之选? 2025款钇为3 VS 埃安UT,谁更值得选购? 比亚迪成为CCTV科技强国战略合作伙伴 EQB对L6,一个奔驰“图腾”,一个理想“家庭战车”,选哪个?