“邪修”AI芯片的Taalas，成色如何？｜AGI焦点

图片来自Taalas官网

打着“颠覆英伟达”的旗号的公司，总是会接二连三涌现。

最近，一家来自加拿大多伦多的芯片“小厂”Taalas引起了AI圈关注。有声音认为，它很可能撬动英伟达主宰了多年的AI芯片市场。

当地时间2月20日，成立于2023年的初创公司Taalas发布了首款产品Taalas HC1芯片，专为Llama 3.1 8B模型优化，采用30芯片集群时实现每秒12000 tokens的推理速度，较传统GPU方案提升50倍能效。

Taalas称，公司通过结构化ASIC技术将芯片定制周期缩短至两个月，已累计融资2.19亿美元。24名敬业的员工的努力，投入3000万美元，打造出了这款拥有“极致的专业化、速度和能源效率”的产品。

Taalas创始人兼CEO是曾任AMD架构师的业界传奇人物柳比沙·巴伊奇（Ljubiša Bajić）。

在公司官网的介绍文章中，巴伊奇称，这款芯片选择了Meta公司2024年7月推出的开源大模型Llama 3.1 8B作为运行平台，峰值推理速度接近17000 tokens/秒，比目前市场中最先进的技术快近10倍，构建成本降低到原来的1/20，功耗降低至原来的1/10。

截图来自社交平台X

巴伊奇给出了一组测试数据，Taalas自己在Llama 3.1 8B上测试了英伟达的主力产品H200和B200，结果为230 tokens/秒和353 tokens/秒，而Taalas的HC1性能是它们的48倍。

此前这一数据，是由独立分析平台Artificial Analysis测出的最高值，来自刚刚完成H轮融资、估值230亿美元的Cerebras，为1981 tokens/秒，也仅为HC1的11%。

在实测演示中，大模型对用户问题的详细解答，达到甚至超越了“秒回”的水平。

不过，AI在大量回复的一瞬间，人类对话者也产生了扑面而来的压迫感。

图片来自Taalas官网

这一堪称“突破极限”的表现，果不其然引起了大量的讨论。大呼“颠覆将至”者有之，质疑其言过其实、过度营销者亦有之。

令我们好奇的是，在喧嚣背后，Taalas的技术和产品究竟有何特殊之处？又是否当得起其自称的“世界上速度最快、成本和功耗最低的推理平台”呢？

将模型直接“刻”在芯片上

在研究了其首款产品HC1的相关公开信息之后，我们发现，Taalas的技术路线，与目前市场主流的ASIC路线相比，极具颠覆性，堪称“邪修版”ASIC。

与英伟达和AMD代表的业界主流GPU通用计算技术路线不同，Taalas更接近ASIC（专用集成电路）路线。

这一技术路线通过为特定应用场景定制硬件设计，以追求极致能效和成本效益。虽然它的适用性、功能丰富度、可互换性，远低于能覆盖多场景的GPU，但自去年以来，以谷歌TPU为首，ASIC技术拥有成本（TCO）低、打造大模型能力毫不逊色等特点，得到了市场认可，出货量大幅提升。

野村证券预测，2026年，ASIC芯片的总出货量可能会首次超过GPU。而在GPU市场处于两巨头垄断的情况下，大多数芯片初创也都选择了ASIC路线，包括市场知名度较高的Cerebras、SambaNova，以及，此前刚刚被英伟达将核心团队纳入囊中的Groq。

巴伊奇在AMD和英伟达都有任职经历，之前还创立了一家专注于AI芯片研发的独角兽Tenstorrent公司。Tenstorrent通过开源RISC-V架构和软硬件协同设计，降低AI计算成本。

而“挑战英伟达垄断地位”，一直是巴伊奇所宣扬的核心理念，也是Tenstorrent公司备受关注的“招牌”标签。

不过，英伟达的发展，要远好于AMD及各类AI芯片初创公司，巴伊奇也在探索中有了更“极端”的设想。

2022年至2023年间，巴伊奇逐渐脱离了此前工作，开始筹划创办Taalas。他与他的妻子、曾在AMD任系统工程高级经理莱拉·巴伊奇（Lejla Bajic），以及，曾任AMD高级设计工程师并在Tenstorrent担任过ASIC设计总监的德拉贡·伊格纳托维奇（Drago Ignjatovic）成为了Taalas联合创始人。

Taalas公司20余人的核心工程师团队，多数来自AMD、苹果、谷歌、英伟达和TensorRent。

2024年，Taalas公司完成5000万美元的首轮融资，并正式出现在公众视野。

巴伊奇强调，Taalas致力于解决AI发展面临的两大障碍——“高延迟”和“天文数字般的算力成本”，并提出“单芯片性能超越小型GPU数据中心”这一极具野心，甚至显得有些“狂妄”的目标。

资本市场为巴伊奇的野心投票。截至目前，Taalas目前已完成三轮融资，总额超过2亿美元。

Taalas奉行“The Model is The Computer”（这句话也是公司的slogan），可以理解为，将传统“在计算设备上运行模型”的范式，转变为“模型本身成为计算设备”。

技术实现路径上，Taalas提出“无需软件，直接将模型刻在芯片上”，这与传统的ASIC芯片仍需使用软件，通过编译过程将软件代码转化为芯片指令不同。

Taalas通过EDA（电子设计自动化）流程，将特定大模型直接转化为定制芯片。

也就是说，每款使用Taalas的大模型，都会拥有专属于自身的定制芯片，实现巴伊奇所说的“完全专业化”（Total specialization）。

与此同时，算力也摆脱了软件束缚和编译过程，数据几乎不需要在内存和计算单元之间移动，“内存墙”由此消失，推理成本随之大幅降低，推理速度则显著提升。

截图来自社交平台X

目前来看，Taalas的主要业务操作流程也比较简单。大致是客户向Taalas提供自身所需的模型，Taalas在一周内将其转化为电路设计，通过台积电代工在两个月内交付专属芯片。

可想而知，如果Taalas能为每个主流模型，都提供出类似HC1在Llama 3.1 8B上那样的性能飞跃，那么，各大厂商很可能会对其产品趋之若鹜。

实际上，包括独立人工智能研究员本杰明·马里（Benjamin Marie）、Devtools创业顾问肖恩·王（swyx）等产业界人士和The Next Platform记者蒂莫西·普里克特·摩根（Timothy Prickett Morgan）等媒体人士，都已在积极介绍Taalas的新产品，看好其前景者不在少数。

Taalas的死穴在哪？

不过，在舆论热度落地到商用市场之前，Taalas还有很多问题需要被看到。

首先，Taalas需要面对的是，其产品能否适用更先进、大规模的模型。

2024年，Meta推出Llama 3.1时，发布了8B、70B和405B三种参数规模版本，Taalas选用的是最小的8B。

很显然，在目前大模型进化速度极快、规模越来越大的背景下，Taalas的产品能否匹配，是否面临明显“天花板”，都是必须解决的问题。

巴伊奇称，公司将在今年春季推出一款适用中等规模推理模型的产品，届时表现如何，值得关注。

与此相关的，目前测评体验中，不少质疑声音集中在，Taalas让本已不算聪明的Llama变得“更笨了”。

一些用户发帖称，HC1“幻觉严重”“答案明显错误，质量远低于同参数GPU版”，“回答速度快但错得也快”，其实用性不佳。

截图来自社交平台X

实际上，对于如何理解Taalas给出的测试数据，也有较多质疑声音。

一位关注芯片产业的爱好者对作者表示，Taalas相当于内置了问题的答案，所以，计算速度“秒杀”英伟达等一众业界翘楚，但是，将”1+1=2”的问题换为“2*2=？”，它的表现可能就会“掉链子”。

Taalas能在极其有限的特定场景下“秒杀英伟达”，但目前其他英伟达能做的事，对于Taalas来说可能更难。