Transformer
-
注意力机制并非万能:通义千问3新变体Brumby-14B-Base的混合架构革新
自2017年谷歌提出Transformer架构并喊出“注意力机制就是一切”的口号以来,注意力机制便成为大型语言模型(LLM)的核心驱动力,支撑起ChatGPT、Gemini等一众主…
-
混合递归架构实现推理速度翻倍:技术原理与实施指南
韩国科学技术院(KAIST)与Mila研究院的科学家们近期提出了一种创新的Transformer架构——混合递归(Mixture-of-Recursions, MoR),该设计通过…
-
Mistral发布首个开源AI音频模型Voxtral,开启多模态AI新纪元
法国人工智能初创公司Mistral AI于7月15日正式推出其首款开源音频处理模型Voxtral,标志着这家以大型语言模型闻名的公司正式进军多模态AI领域。这款基于Transfor…
-
超越Transformer:NVIDIA的MambaVision旨在为企业解锁更快、更便宜的计算机视觉
引言 在人工智能(AI)的广阔领域中,计算机视觉一直是推动技术进步和应用创新的关键力量。然而,传统的基于Transformer的计算机视觉模型虽然性能卓越,但计算成本高昂,限制了…
-
最热门AI模型解析:功能、应用与使用方法
在当今的科技领域,AI模型正以前所未有的速度改变着我们的生活和工作方式。本文将介绍一些当下最热门的AI模型,探讨它们的功能、应用领域以及如何使用这些模型来推动创新和优化业务流程。 …
-
ChatGPT 两岁生日:两年后人工智能(和世界)将会变成什么样子?
距离 2022 年 11 月 30 日 ChatGPT 首次亮相,如今已经过去了两年多时间。在推出之时,OpenAI 将 ChatGPT 视为一个演示项目,旨在了解人们如何使用该工…
-
Liquid AI 的新 STAR 模型架构比 Transformer 效率更高
随着有关顶级人工智能公司在开发更新、更强大的大型语言模型 (LLM) 方面面临困难的谣言和报道不断流传,人们的注意力越来越多地转向“Transformer”的替代架构——这是支撑当…
-
为医生配备人工智能副驾驶
大多数医生从医是因为他们想帮助患者。但当今的医疗保健系统要求医生每天花费数小时处理其他工作——搜索电子健康记录 (EHR)、编写文档、编码和计费、事先授权和使用管理——通常超过他们…
-
利用人工智能解锁医疗保健领域的新可能性
由于机器学习和人工智能的使用,美国的医疗保健正处于重大潜在颠覆的早期阶段。这种转变已经进行了十多年,但随着最近的进展,似乎将迎来更快的变化。我们仍有许多工作要做,以了解人工智能在医…
-
使用 JPEG 压缩来改善神经网络训练
加拿大的一篇新研究论文提出了一个框架,该框架有意将 JPEG 压缩引入神经网络的训练方案中,并设法获得更好的结果以及更好的抵抗对抗性攻击的能力。 这是一个相当激进的想法,因为目前的…