金算生电子报21集

  1. Stable Diffusion、DreamFusion、Make-A-Video、Imagen Video 和下一步

生成式人工智能才刚刚起步,但是正在以指数级的速度发展着。自 OpenAI 第一次发布 GPT-3 和 DALL-E 之后,就开始在人工智能领域大放异彩。

2022 年是文本到内容的生成年(又称 AIGC)。在 2022 年 4 月,OpenAI 发布了 DALL-E 2,在关于 CLIP 和扩散模型的论文中有所描述。这是第一次从自然语言的文本描述中创建逼真的图像和艺术。

四个月之后,初创公司 StabilityAI 宣布发布 Stable Dispossion,这是一个开源的文本到图像生成器,它能在几秒钟内创造出令人惊叹的艺术。它可以在消费级 GPU 上运行,在速度和质量上都有突破性进展。它的热度如此之高,以至于在 2022 年 10 月 17 日的种子轮中成为了独角兽。

2022 年 9 月 29 日,谷歌发布了 DreamFusion,用于使用 2D 扩散实现文本到 3D 的生成。同一天,Meta 发布了 Make-A-Video,它不需要文本和视频的数据,就可以进行文本到视频的生成。

不到一周,谷歌似乎回应了 Meta 的 Make-A-Video,首次推出了 Imaged Video,用于文本到视频的生成。

在过去半年的这一激动人心的旅程中,Midjourney 和 CogVideo 的重要性不容忽视。Midjourney 是一家独立的研究实验室,提供 Midjourney Bot,从文本中生成图像。CogVideo 是第一个开源的、具有 94 亿个参数的大规模预训练文本到视频模型。

在本文中,我将描述他们如何为 Stable Dispossion、文本到 3D 和文本到视频工作。另外,让我们体验一下无需编码即可实现令人惊叹的文本到图像的功能,看看接下来会发生什么。

评:从文本,图片,视频和3D方面阐述生成式AI的现状

  1. 有手就行?把大象P转身只需拖动鼠标,华人一作DragGAN爆火

在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖于迭代推理,这是一把双刃剑,因为迭代方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,在实际应用方面,扩散模型比 GAN 方法更易于控制,这是 GAN 式微的原因之一。

当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。

最近,来自马克斯・普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究者们研究了一种控制 GAN 的新方法 DragGAN,能够让用户以交互的方式「拖动」图像的任何点精确到达目标点。

评:这个比controlnet更有意思

  1. 规模性能双杀OpenAI,Meta语音达LLaMA级里程碑,开源MMS模型可识别1100+语言

在语音方面,Meta又达到了另一个LLaMA级的里程碑。今天,Meta推出了一个名为MMS的大规模多语言语音项目,它将彻底改变语音技术。MMS支持1000多种语言,用圣 经训练,错误率仅为Whisper数据集的一半。只凭一个模型,Meta就建起了一座巴别塔。

并且,Meta选择将所有模型和代码开源,希望为保护世界语种的多样性做出贡献。

在此之前的模型可以覆盖大约100种语言,而这次,MMS直接把这个数字增加了10-40倍!

具体来说,Meta开放了1100多种语言的多语种语音识别/合成模型,以及4000多种语言的语音识别模型。

OpenAIWhisper相比,多语言ASR模型支持11倍以上的语言,但在54种语言上的平均错误率还不到FLEURS的一半。而且,将ASR扩展到如此多语言之后,只造成了非常小的性能下降。

评:meta从与宇宙的深潭走出来后连出杀招

  1. 跑分达ChatGPT的99%,人类难以分辨,开源“原驼”爆火,iPhone都能微调大模型了

自动测试分数达到ChatGPT的99.3%人类难以分辨两者的回答……

这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。

更关键的是,与原驼一起提出的新方法QLoRA把微调大模型的显存需求>780GB降低到<48GB

评:微调方法QLoRA或许是模型缩小的方向

  1. 德州仪器PMIC大幅降价抢市场,中国企业如何应对?

芯片降价潮,从存储器,到处理器,一直蔓延到原本稳定的模拟芯片市场,作为模拟芯片的重要分支,电源管理芯片( P MIC )也难以幸免。

作为全球模拟芯片,特别是PMIC龙头企业,德州仪器(TI)于近期陆续传出降价消息,而且是较大幅度的降价。据悉,TI在中国台湾的PMIC大幅降价20%-30%,以抢夺市占率,提升产能利用率。这种幅度的降价,对于模拟芯片龙头TI来说是不多见的,充分反应出市场“寒气逼人”。

看一下TI最近发布的财报,也可以理解其大幅降价的决定。2023年第一季度,该公司营收为43.79亿美元,同比下滑11%,营业利润为19.34亿美元,同比下滑25%,每股收益为1.85美元,同比下滑21%。其中,模拟芯片营收为32.89亿美元,同比下滑14%,嵌入式处理芯片营收8.32亿美元,同比增长了6%。第一季度库存天数环比增长了38天,至195天,库存金额环比增长了5.31亿美元,至33亿美元。可见,市场需求下滑,库存大幅上升。

这样糟糕的业绩表现,特别是营收主力模拟芯片,下滑幅度很大,在整体市场需求疲软的大环境下,除了降价,似乎没有更好的办法了。

评:电源管理芯片PMIC价格战开打

  1. 黑色素瘤,为什么是肿瘤治疗“产业革命”风向标?

KN046肺癌适应症进度一再延后,投资者质疑不断,康宁杰瑞相关负责人给出的解释是:因为对照组的患者生存期大幅延长了。

虽然KN046的遭遇是否如该人士所说不得而知,但近年来肿瘤治疗患者的生存现状,因为新兴疗法不断迭代而改善却是事实。

这也给药企带来挑战与焦虑,因为他们必须变得更强。正如每一次产业革命的到来,一些企业注定会失去机会。最终,实力最为强劲的那些选手,抢走所有机会。

在技术大航海时代,肿瘤治疗领域的产业革命注定会不断发生,如何能够洞悉技术发展趋势?

或许,黑色素瘤治疗手段的演变,是我们一个观察的窗口。在免疫疗法每一轮演进过程中,黑色素瘤似乎总能抢得先机。

评:免疫治疗已经与黑色素瘤密切相关

  1. 药企霸权从何而来?

在1958年德州仪器实验室中诞生第一块芯片之前,这个世界上赚钱能力最强的行业,是制药业。 

自有可查数据以来,制药公司们盘踞在各行业盈利能力榜首长达20年以上,在2002年《财富》的一项调查中,美国五百强企业中的10家制药业公司,总利润超过其余490家公司之和。

而在那样一个半导体技术尚未改变世界的年代,绝大多数企业仍旧奉行“福特模式”,企业家们利润的来源几乎都是通过提高生产效率,压低各项成本而实现的。

技术的溢价唯独只存在于制药业中。而反映在数字上,则是2001年制药业平均销售净利率高达18.5%,而其它行业仅有3.3%,其中六倍的差距,几乎都来源于科学家们对于元素周期表的理解。 

如今,当数以百亿计的晶体管被安装到了一块小小的芯片上之时,这一局面才被改变。但制药业仍旧是这个世界上最赚钱的行业之一。

在疫情期间,曾经默默无名的北京科兴2021年一年净赚1280亿元,放在同年A股4794家上市公司之中其利润水平高居第五,力压招商银行,中远海控,交通银行等一众“弱势群体”。而全球制药巨头辉瑞,2022年2200亿的净利润直追我国“宇宙银行”。

评:高研发投入,高风险高回报。

  1. 颠覆嗅觉:气味数字化

艾利克斯·威尔奇科(Alex Wiltschko)打开一个黑色塑料手提箱,取出了大约60个装满不同香气的玻璃瓶。有一瓶闻起来带有淀粉味,还伴着柔和的花香,如同烹煮中的茉莉香米。另一瓶则让人想到湿润的海风和西瓜的白瓤。还有一瓶散发着藏红花的香味,中间还微嵌着淡淡的皮革和红茶的香气。再有一瓶则是无花果叶、黄杨木和罗勒的浓烈香气。最令人意外的一瓶是泰国辣椒的醇厚香气,却并没有辣椒所特有的鼻腔灼伤感。

飘入我鼻中的这些气息,与我曾经闻到过的任何气味都迥然不同。实际上,能够闻到这些气味的人,全世界也只有寥寥几人。然而,在任何人有机会闻到这些气味之前,一个计算机模型就已经预测出了我们将如何感知这些气味

评:气味数字化是个新的科技领域

  1. 为什么建议开源社区的技术交流使用邮件列表?

邮件列表妙在哪里

  • 异步沟通可以给大家充裕的时间:
    • 大多数人会选择在时间充裕的时候查阅邮件,或者专门留出一部分时间对邮件列表内容进行浏览;
    • 相同的内容被归类在同一话题下,有的话题可以讨论好几天或者好几周,持续保持话题热度。
  • 更优质的内容:
    • 我们在编辑/回复邮件时会更加注意措辞和用词的严谨性,对内容的质量有潜在的更高要求;
    • 邮件可以提供更丰富的内容形式,图片、视频、代码、附件等,双方对于问题可以进行更深入的交流;
    • 对不同的内容、话题进行管理,可以让界面更加整洁,整个列表内容丰富且不杂乱。
  • 更高效:
    • 邮件列表提供的检索功能,可以通过关键词快速定位到问题以及相关内容,如果问题之前被回答过,则可以快速查看解决方案;
    • 同样的问题可以整合后形成链接,直接转发给提问者,缩短解决问题的链路;
    • 邮件列表可通过类似广播的形式,将内容发给所有订阅者,关键信息不会被一条条聊天记录刷屏刷走。
  • 适用范围更广:
    • 针对国际化的长久考虑,邮件列表的适用范围更广,加入组织讨论的链路更简单;
    • 大家的讨论公开且透明,讨论内容可以形成链接在互联网上传播,吸引更多想要了解相关信息的人加入;
    • 有一些对社区好奇、又想先观望一下的人,可以通过邮件列表中的多元化内容对社区的有一个初步、快速又不乏立体的了解。
  • 信息的安全性:
    • 这的安全性指的是,订阅邮件列表的每个人都会有一份信息副本,邮件列表的每个字都通过公开的传播流程,形成永不丢失的状态。

评:使用微信这种同步工具办公的人要么是肆虐狂,要么是受虐狂。

  1. 社论:中西对立格局进一步确立

广岛七国集团峰会采纳合力打击“经济胁迫”的新倡议,誓言要挫败把贸易和供应链“武器化”的企图,虽然没有正式点名,剑指中国的意图明显。从峰会邀请志同道合的国家和组织与会,特别是同样针对中国的“四方安全对话”场边峰会,探讨建立“可靠的”供应链,在经贸上孤立中国的用意昭然若揭。从北京对峰会的强烈反应观察,中国与西方世界的对立格局,在峰会后进一步确立,后冷战和平红利至此耗尽,世界进入新地缘政治时期。

评: 无论是脱钩或去风险化,中国与西方世界的对立格局已经形成。

  1. Why You Should Take TikTok Off Your Phone

TikTok is one of the fastest-growing social media platforms out there. It can be great fun. But, the platform has dark sides that may warrant caution regarding how you interact with the service. Let’s review some reasons you may want to hit the uninstall button.

评:假如你需要找些理由来卸载抖音的话,可以参考一下。

发表评论

您的电子邮箱地址不会被公开。