金算生电子报45集

对话：理解 Sora，复现Sora

经过1个月的发酵，国内AI从业者们对Sora的态度正发生着微妙的转变，从最初的震撼，到被未知裹挟的好奇、质疑，再到最近开始隐约出现“复现Sora”的潮流。

1份技术报告，32篇引用论文，一些画面堪比电影镜头的demo和1个故作高深的“世界模拟器”概念就是OpenAI给出的全部，没有技术论文，也没有可公开体验的产品入口。

OpenAI给全世界出了一系列谜题——Sora的技术架构到底是什么？和ChatGPT有什么联系？训练Sora是否会烧掉更多资金和算力？开源有机会反超Sora吗？OpenAI口中的“世界模拟器”到底是什么……？

本次对话的主人公李志飞，便是冲在一线破解谜题的人。

评：跟谁者对sora的理解

不依赖 token，字节级模型来了，直接处理二进制数据

最新GPT，不预测token了。

微软亚研院等发布bGPT，仍旧基于Transformer，但是模型预测的是下一个字节（byte）。

通过直接处理原生二进制数据，bGPT将所有输入内容都视为字节序列，从而可以不受限于任何特定的格式或任务。

评：直接从底层一步到位理解，但能否捕捉到语义信息还存疑

7B大模型测试成绩超GPT-4，微软新研究解决工具调用难题

近日微软和俄亥俄州立大学的研究人员发布论文，提出了一种受到生物启发的可以增强大语言模型使用工具能力的方法，即模拟试错（STE）法，并将其开源。

该方法协调了试错、想象和记忆三个关键机制。具体而言，STE通过大模型的“想象力”来模拟使用工具的一些合理场景，从而尝试适配不同的大模型，随后从新的反馈中，获得反馈不断优化。

评：从小模型上不断调优

QuestMobile2024生成式AI及AIGC应用洞察报告

QuestMobile数据显示，随着数据要素日益重视、人工智能持续发展，大语言模型取得了巨大成功，AIGC领域日益勃兴，表现来看，一方面，AI产品形态向内容生成、知识洞察、智能助手、数字代理等方向延伸；另一方面，文本、图片、音频、视频等多模态之间相互转换已经初步实现。

具体应用上，AI PC、AIGC APP等均已经出现，借助AI生成文本、图片等内容信息，也可以生成办公文档，进行内容总结等等，在缩短工作时长、提高效率方面发挥作用。

评：AIGC应用场景概述

OpenAI官宣开源Transformer Debugger，不用写代码，人人可以破解LLM黑箱

刚刚，OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码，就能快速探索LLM的内部构造了！AGI真的越来越近了！

为了确保人类不被AI杀死，在解密神经网络/Transfomer黑箱这一方面，OpenAI从未停下脚步。

评：破解LLM黑盒

Vision Pro不需要“杀手级应用”

Vision Pro 上市已经一个多月。

在最初的吹捧，惊艳和跟风平息后，关于它的讨论开始趋于冷静和深入。首批产品上市两周后，彭博社发表了一篇关于 Vision Pro 的退货报道，总结了五大退货原因。

除了早在 VR 圈成为老生常谈的“笨重”“眼睛累”等硬件问题外，一个问题频频被人提及：这个“空间计算混合头显”，到底有什么“杀手级应用”？

评：如iphone一样，在vision pro上的众多应用可能产生杀手级应用

OpenAI机器人活了，说话做事太像人，2分半视频震撼世界

近日，机器人明星创企Figure发布了一段2分35秒的视频。视频中，Figure 01可以轻松完成很多高难度动作：

描述自己眼前看到了什么；

判断自己眼前看到的这些东西相互之间有什么关联；

给饥饿的测试员找到桌子上唯一能吃的苹果并精准递送过去；

进行“回忆”，并对自己做过的事情给出评价；

用简单易懂的话语口头解释自己做事的缘由，比如为什么觉得自己做的好？

这背后，Figure 01用上了OpenAI的大模型能力。

评：具身智能的体现

从机器人模型 RT-2 看多模态、Agent、3D视频生成以及自动驾驶

“烫杯温壶，拂盖取茶，将茶叶拨至壶中，封壶，用茶巾揩拭桌面……”

Meta、CMU团队耗时2年打造的RoboAgent，能烘培、收纳餐具、使用微波炉，也能将一套茶艺演绎得行云流水。但如果对它说，「我想尝尝初秋的老白茶，请泡一壶云南古树白牡丹。」它也能听得懂，并娴熟奉上么？

人类一直想要一个能够如人类一般有「头脑」、在任何场景都能灵活操作的通用机器人，成为人类的伙伴和助手。而以前的机器人，对各类场景操作的数据如饥似渴，同时也缺乏能生成数据的「聪明大脑」。

直到大模型的加持，机器人焕发了新的生命力。

评：机器人模型概述

成立 2年、市值40亿美元，一场有预谋的“生物科技实验”

成立仅7个月，顺利IPO；

资本寒冬，IPO超募3亿美元；

上市仅9个月，股价涨幅311%，市值达到40亿美元。

你很难想象，这些战绩，都是一家核心管线均处于临床前biotech，Apogee创造的。

评：一般都是临床二期才会上市，奇迹了

最强 AI芯片发布，4万亿个晶体管，90万个核，125 PetaFLOPS算力

今天，芯片初创公司Cerebras Systems推出了全新的Wafer Scale Engine 3，并将其现有的最快 AI 芯片世界纪录加倍。据介绍，在相同的功耗和相同的价格下，WSE – 3的性能是之前的记录保持者Cerebras WSE-2的两倍。基于 5nm 的4万亿晶体管WSE-3专为训练业界最大的 AI 模型而构建，为Cerebras CS-3 AI 超级计算机提供动力，通过900,000 个 AI优化计算核心提供 125 petaflops 的峰值 AI性能。

评：期待计算成本能降低

AI芯片新贵，各出奇招

最近两年的人工智能繁荣，让英伟达凭借GPU登上了芯片之巅。于是包括AMD、Intel、Graphcore、Cerebras和Tenstorrent等在内的传统和新贵芯片企业试图在这个领域将英伟达拉下马。不过，虽然他们都非常努力，但似乎依然难动英伟达分毫。于是，市场上又冒出来了一群AI芯片新公司，他们希望用不同的架构和思路，以期将英伟达赶下神坛。

下面我们来盘点一下最近比较热门的挑战者。

评：不能让英伟达吃独食

Meta公布Llama 3训练集群细节，储备60万块H100迎接AGI

每年3月份，照例各家大厂又要开始秀自己最新的产品和研究了。

OpenAI刚刚发布了震惊世人的Sora，最新的ChatGPT版本似乎也是箭在弦上。

谷歌更是举全公司之力，从去年底就开始放出了包括Gemini Ultra，Gemini 1.5，Gemma在内，各分支赛道上的惊艳成果。可是作为开源AI的扛把子，Meta在去年发布了Llama 2和后续的模型后，就一直缺少有影响力的产品问世。而对于开源社区来说，OpenAI虽好，可Meta才是大家真的衣食父母。大家都在翘首以待Llama 3的发布。

在Llama 3公开之前，不甘寂寞的Meta还是想到办法在行业内刷了一波存在感——秀肌肉。

Meta AI刚刚发表了一份技术博客，向公众展示了自己拥有的算力资源，以及Meta布局AI Infra的具体细节和路线图

评：老黄卖的芯片都去meta了

TikTok胜算渺茫

命运多舛的TikTok再次陷入危机。

昨夜（美国时间3月13日上午），美国众议院以暂停议事规则的方式通过了对TikTok的不合理法案，该法案要求字节跳动剥离对旗下短视频应用程序TikTok的控制权，否则TikTok就会在美国遭到封禁。

最终投票结果为352票赞成，65票反对。暂停议事规则是一种较为快速的程序，用来迅速通过争议不大、得到两党广泛支持的法案，需要三分之二的票数。此前，外界普遍预计众议院将通过该法案。

虽然该法案最终还需要提交给总统批准，不过按照事件的走向，该法案最终落地的可能性已经无限接近现实——美国总统拜登曾在接受媒体采访时明确表示，“如果他们通过了，我就会签署”。

法案一旦通过，这意味着，字节跳动要么将TikTok拱手让于他人，要么就只能彻底放弃掉它。

评：民主决策效率真低，不像中国和印度一样，一张行政命令就可以把tiktok关了

发表评论 取消回复

发表评论取消回复