八年前,OpenAI 提出了一个前卫的设想:创建一个能够能在复杂环境中执行任务的 AI,让 AI 智能体能够像人类一样使用计算机。
就在前天(3月13日),Google 的 DeepMind 团队宣布了他们的最新研究成果,他们的全能 AI 智能体 SIMA(Simulation-to-Anything)已经将这一设想变为现实。这是一个可扩展、可指导的多世界智能体,能够在多样化的 3D 虚拟环境中执行多种任务。
评:让AI模仿一切
苹果也在搞自己的大型多模态基础模型,未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。
今年以来,苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹果 CEO 蒂姆·库克表示,今年将在 GenAI 领域实现重大进展。此外,苹果宣布放弃 10 年之久的造车项目之后,一部分造车团队成员也开始转向 GenAI。
评:终于上车了
本周一,马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok,这也兑现了他上周的开源承诺。截至目前,Grok 已经在 GitHub 上获得了 4.3k 颗 Star。
开源地址:https://github.com/xai-org/grok-1
Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型,其中 25% 的权重来处理给定的标记。xAI这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构,使用了 Apache-2.0 许可证。
评:又恶心都OpenAI一波
2023年上半年,因为ChatGPT的横空出世,中国大厂与创业公司纷纷投身大模型,一时引发“百模大战”。这又过了大半年时间,中国大模型相关的投资人和从业者,又有了市场路线与技术路线之争:
一边是以月之暗面创始人杨植麟为代表的技术路线,他们大多技术出身,思维偏硅谷,对技术有信仰,信仰AGI(人工通用智能)、信仰scaling law(规模定律),更推崇前辈OpenAI的路径,认为随着模型能力跃升、模型成本降低,会解锁丰富的应用。
另一边则是以周鸿祎、朱啸虎为代表的市场路线,他们更加本土化,信奉尖端的科技必须经过开源、共创才能实现最大化的边际效益,认为需将充足的AI能力投入可以快速变现的商业场景中进化,同时用国内市场特有的海量数据和应用场景构筑壁垒。
评:国内搞钱是第一位的
2月21日,Stability AI推出了旗下文生图模型的最新版本Stable Diffusion 3。据公司介绍,SD3是他们最强大的文生图模型,在生成图的质量上取得了显著进步,支持多主题提示词输入,并且能实现更好的文字书写效果。
在本次对话中,我们将重点关注Stable Video Diffusion——一款将文本转化为视频的AI模型,以及它背后的技术挑战和创新解决方案。我们将深入了解扩散模型与其他模型的区别,探讨视频多维性对算力的需求,以及LoRA技术如何简化视频模型的微调过程。
评:参考一下AI视频的实现方案
苹果被美国政府告了!
智东西3月22日报道,就在昨夜,美国司法部官方发文,宣布和16名州、地区检察长一起联合起诉苹果公司,指控苹果公司涉嫌垄断。
至于美国司法部起诉的原因,总结起来还是苹果生态过于封闭,导致竞争对手的产品无法集成到iPhone里,最终让消费者使用这些竞争对手的产品或服务掏的钱更多了。
评:苹果到了多事之秋
自从 2017 年谷歌发表了题为 “Attention is All You Need” 的重磅论文,其中提出的“自注意力”这一革命性的概念成为 Transformer 模型的核心部分,引领了我们目前正在经历的AIGC革命。
然而,当前的大模型领域似乎并不是姓“谷”的,反倒是有种微软一手遮天,谷歌和其他公司在后追赶的感觉。
为什么现在会出现这种“逆转”的情况呢?谷歌现在都做了些什么工作?为了解答这个问题, 谷歌首席科学家Jeff Dean于2 月13 日在美国莱斯大学 进行了一场 1 小时 12 分钟的公开演讲, 突出展示人工智能和机器学习领域中几个令人振奋的趋势,并介绍了谷歌在人工智能时代的过去、现在与未来所做的工作,还概述了大家都很感兴趣的 Gemini 系列多模态模型。
评:机器学习的前生今世
3月18日-21日期间,英伟达在美国圣何塞召开GTC大会,作为一年一度的技术发布会, GTC大会被誉为AI行业风向标,创始人黄仁勋也在GTC大会上,做了一场长达两小时的开幕演讲。
此次演讲中,英伟达发布了他们的下一代芯片架构Blackwell,这一GPU平台也是黄仁勋口中,英伟达史上最成功的产品。
据介绍,Blackwell GPU以数学家David Harold Blackwell的名字命名,同样沿用了英伟达此前推出的Hopper架构。Blackwell GPU中包含2080亿个晶体管,可以支持多达10万亿个参数的AI模型。
评:专为大模型定制GPU
在人工智能的淘金热中,英伟达吃肉,小型关键参与者喝汤。这次我们要说的是正发力在Retimer这个小型芯片的供应商。目前一台典型的配8块GPU的主AI服务器需要8颗甚至16颗PCIe 5.0 Retimer芯片。
评:这才是卡脖子技术
资深机器人专家Eric Jang不久前曾预言:“ChatGPT 曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。”
3月13日深夜,一段人形机器人的视频开始热传。
在视频中,Figure的人形机器人,可以完全与人类流畅对话,理解人类的意图,同时还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。
评:下一波技术爆发点