图片来自Taalas官网
打着“颠覆英伟达”的旗号的公司,总是会接二连三涌现。
最近,一家来自加拿大多伦多的芯片“小厂”Taalas引起了AI圈关注。有声音认为,它很可能撬动英伟达主宰了多年的AI芯片市场。
当地时间2月20日,成立于2023年的初创公司Taalas发布了首款产品Taalas HC1芯片,专为Llama 3.1 8B模型优化,采用30芯片集群时实现每秒12000 tokens的推理速度,较传统GPU方案提升50倍能效。
Taalas称,公司通过结构化ASIC技术将芯片定制周期缩短至两个月,已累计融资2.19亿美元。24名敬业的员工的努力,投入3000万美元,打造出了这款拥有“极致的专业化、速度和能源效率”的产品。
Taalas创始人兼CEO是曾任AMD架构师的业界传奇人物柳比沙·巴伊奇(Ljubiša Bajić)。
在公司官网的介绍文章中,巴伊奇称,这款芯片选择了Meta公司2024年7月推出的开源大模型Llama 3.1 8B作为运行平台,峰值推理速度接近17000 tokens/秒,比目前市场中最先进的技术快近10倍,构建成本降低到原来的1/20,功耗降低至原来的1/10。
截图来自社交平台X
巴伊奇给出了一组测试数据,Taalas自己在Llama 3.1 8B上测试了英伟达的主力产品H200和B200,结果为230 tokens/秒和353 tokens/秒,而Taalas的HC1性能是它们的48倍。
此前这一数据,是由独立分析平台Artificial Analysis测出的最高值,来自刚刚完成H轮融资、估值230亿美元的Cerebras,为1981 tokens/秒,也仅为HC1的11%。
在实测演示中,大模型对用户问题的详细解答,达到甚至超越了“秒回”的水平。
不过,AI在大量回复的一瞬间,人类对话者也产生了扑面而来的压迫感。
图片来自Taalas官网
这一堪称“突破极限”的表现,果不其然引起了大量的讨论。大呼“颠覆将至”者有之,质疑其言过其实、过度营销者亦有之。
令我们好奇的是,在喧嚣背后,Taalas的技术和产品究竟有何特殊之处?又是否当得起其自称的“世界上速度最快、成本和功耗最低的推理平台”呢?
将模型直接“刻”在芯片上
在研究了其首款产品HC1的相关公开信息之后,我们发现,Taalas的技术路线,与目前市场主流的ASIC路线相比,极具颠覆性,堪称“邪修版”ASIC。
与英伟达和AMD代表的业界主流GPU通用计算技术路线不同,Taalas更接近ASIC(专用集成电路)路线。
这一技术路线通过为特定应用场景定制硬件设计,以追求极致能效和成本效益。虽然它的适用性、功能丰富度、可互换性,远低于能覆盖多场景的GPU,但自去年以来,以谷歌TPU为首,ASIC技术拥有成本(TCO)低、打造大模型能力毫不逊色等特点,得到了市场认可,出货量大幅提升。
野村证券预测,2026年,ASIC芯片的总出货量可能会首次超过GPU。而在GPU市场处于两巨头垄断的情况下,大多数芯片初创也都选择了ASIC路线,包括市场知名度较高的Cerebras、SambaNova,以及,此前刚刚被英伟达将核心团队纳入囊中的Groq。
巴伊奇在AMD和英伟达都有任职经历,之前还创立了一家专注于AI芯片研发的独角兽Tenstorrent公司。Tenstorrent通过开源RISC-V架构和软硬件协同设计,降低AI计算成本。
而“挑战英伟达垄断地位”,一直是巴伊奇所宣扬的核心理念,也是Tenstorrent公司备受关注的“招牌”标签。
不过,英伟达的发展,要远好于AMD及各类AI芯片初创公司,巴伊奇也在探索中有了更“极端”的设想。
2022年至2023年间,巴伊奇逐渐脱离了此前工作,开始筹划创办Taalas。他与他的妻子、曾在AMD任系统工程高级经理莱拉·巴伊奇(Lejla Bajic),以及,曾任AMD高级设计工程师并在Tenstorrent担任过ASIC设计总监的德拉贡·伊格纳托维奇(Drago Ignjatovic)成为了Taalas联合创始人。
Taalas公司20余人的核心工程师团队,多数来自AMD、苹果、谷歌、英伟达和TensorRent。
2024年,Taalas公司完成5000万美元的首轮融资,并正式出现在公众视野。
巴伊奇强调,Taalas致力于解决AI发展面临的两大障碍——“高延迟”和“天文数字般的算力成本”,并提出“单芯片性能超越小型GPU数据中心”这一极具野心,甚至显得有些“狂妄”的目标。
资本市场为巴伊奇的野心投票。截至目前,Taalas目前已完成三轮融资,总额超过2亿美元。
Taalas奉行“The Model is The Computer”(这句话也是公司的slogan),可以理解为,将传统“在计算设备上运行模型”的范式,转变为“模型本身成为计算设备”。
技术实现路径上,Taalas提出“无需软件,直接将模型刻在芯片上”,这与传统的ASIC芯片仍需使用软件,通过编译过程将软件代码转化为芯片指令不同。
Taalas通过EDA(电子设计自动化)流程,将特定大模型直接转化为定制芯片。
也就是说,每款使用Taalas的大模型,都会拥有专属于自身的定制芯片,实现巴伊奇所说的“完全专业化”(Total specialization)。
与此同时,算力也摆脱了软件束缚和编译过程,数据几乎不需要在内存和计算单元之间移动,“内存墙”由此消失,推理成本随之大幅降低,推理速度则显著提升。
截图来自社交平台X
目前来看,Taalas的主要业务操作流程也比较简单。大致是客户向Taalas提供自身所需的模型,Taalas在一周内将其转化为电路设计,通过台积电代工在两个月内交付专属芯片。
可想而知,如果Taalas能为每个主流模型,都提供出类似HC1在Llama 3.1 8B上那样的性能飞跃,那么,各大厂商很可能会对其产品趋之若鹜。
实际上,包括独立人工智能研究员本杰明·马里(Benjamin Marie)、Devtools创业顾问肖恩·王(swyx)等产业界人士和The Next Platform记者蒂莫西·普里克特·摩根(Timothy Prickett Morgan)等媒体人士,都已在积极介绍Taalas的新产品,看好其前景者不在少数。
Taalas的死穴在哪?
不过,在舆论热度落地到商用市场之前,Taalas还有很多问题需要被看到。
首先,Taalas需要面对的是,其产品能否适用更先进、大规模的模型。
2024年,Meta推出Llama 3.1时,发布了8B、70B和405B三种参数规模版本,Taalas选用的是最小的8B。
很显然,在目前大模型进化速度极快、规模越来越大的背景下,Taalas的产品能否匹配,是否面临明显“天花板”,都是必须解决的问题。
巴伊奇称,公司将在今年春季推出一款适用中等规模推理模型的产品,届时表现如何,值得关注。
与此相关的,目前测评体验中,不少质疑声音集中在,Taalas让本已不算聪明的Llama变得“更笨了”。
一些用户发帖称,HC1“幻觉严重”“答案明显错误,质量远低于同参数GPU版”,“回答速度快但错得也快”,其实用性不佳。
截图来自社交平台X
实际上,对于如何理解Taalas给出的测试数据,也有较多质疑声音。
一位关注芯片产业的爱好者对作者表示,Taalas相当于内置了问题的答案,所以,计算速度“秒杀”英伟达等一众业界翘楚,但是,将”1+1=2”的问题换为“2*2=?”,它的表现可能就会“掉链子”。
Taalas能在极其有限的特定场景下“秒杀英伟达”,但目前其他英伟达能做的事,对于Taalas来说可能更难。
更为关键的问题是,Taalas能否跟得上大模型的迭代周期。
一位半导体行业从业者对作者表示,Taalas的芯片“表现很牛,但目前可能没啥大的用处”,因为大模型还在不停迭代,而Taalas的迭代能力和速度成疑。
该行业人士认为,“要等以后大模型达到某个层级不再大规模、快速迭代了,这种芯片才能有更大舞台”。
而在社交平台上的讨论中,不少质疑集中在HC1“模型锁定”的“只读”模式导致的“过时”和“废弃”风险,并认为这是其商业化、规模化的重大阻碍。
目前,一款顶尖大模型能保持领先优势的时间窗口不过月余,而Taalas交付芯片(而非量产)即使已经很快,但也需要至少两个月。
改写AI芯片规则的未来已来
支持HC1进步性的声音也不在少数。
在知乎的相关讨论中,中国科学院计算技术研究所副研究员赵永威指出,虽然Taalas“目前的状况还没有应用价值”,但不妨碍它会成为“一颗有历史意义的芯片”。
他认为,这种“硬连线”的模式,是未来芯片发展的一大趋势,目前的质疑由Taalas来扛,后来者在推广相关概念时就会更加轻松。他也透露,自己所在单位也在研究类似技术路线,并提到,降低经济成本,既是相关路线的研究目标,也应该是宣传发力点所在。
知名科技记者蒂莫西·普里克特·摩根(Timothy Prickett Morgan)在文章中提到,Taalas确实需要模型的每一次更新中重新设计芯片,但其在推理引擎上蚀刻新模型,只需要更改设计中的两层金属,而不是完全废弃。考虑到训练模型的成本高达数十亿美元,Taalas芯片的更新成本微不足道。
摩根认为,在主要模型发布间隔时间延长,人们对成熟模型依赖度增加时,Taalas芯片有望赢得更广泛的市场认可。
也有一些分析称,得益于低延迟、低功耗的特性,Taalas真正的用武之地或在于边缘推理场景,比如,机器人、自动驾驶汽车,甚至高端智能手机等设备中。这些设备不需要运行所有模型,只需要稳定运行定制化的模型,而更快的速度和更低的消耗,显然更有利于产业普及AI大模型。
不过,即便是相关产品能真正规模化地进入市场并大展拳脚,新的状况和问题也会随之浮现。
比如,大模型的底层架构(Transformer)是否会遭遇另一场“革命”?这似乎决定着“模型即芯片”技术路线的命运。还有,生态系统建设的问题,英伟达虽然是硬件公司,但CUDA软件生态和开发者的重度依赖,才是其真正的护城河,而这也是Taalas看中且有意颠覆的。
但这些都是后话了,至少目前来看,Taalas距离英伟达还很遥远,更遑论“颠覆英伟达”了。然而,巴伊奇在这条路上依旧步履不停,Taalas宣布,计划在今年冬季推出第二代HC2产品,将具备更快的执行速度和更强的性能。
届时,一代产品的市场反馈和二代产品的迭代效果,将进一步验证今天各方对这股横空出世的新势力的判断。(作者|胡珈萌,编辑|李程程)



































