
机器之机杼剪部
鄙人载量冲破 1.5 亿次之际,谷歌 Gemma 4 系列模子迎来了新的眷属成员!
今天,谷歌肃穆推出 Gemma 4 12B,见解是把具备智能体才气的多模态智能,胜仗带到札记本电脑上。

凭证先容,Gemma 4 12B 介于面向边际配置的 E4B 与才气更强的 26B 羼杂群众模子(MoE)之间,在更小的内存占用下提供了开阔的才气。
另外,Gemma 4 12B 亦然谷歌首个复古原生音频输入的中等范畴模子。
谷歌 DeepMind 首创东说念主兼 CEO 哈萨比斯,「为庆祝 Gemma 4 下载量冲破 1.5 亿次这一遑急里程碑,谷歌发布了全新的 Gemma 4 12B 模子!关于这么一个小尺寸模子来说,它的才气十分开阔;同期,它也敷裕轻量,只需 16GB 显存,就能在札记本电脑上土产货启动。」

公共不错用它构建了各式各类的利用,从用于物理援助的可一稔机器东说念主手臂,到企业级 AI 安全系统。谷歌也期待看到诱骗者用这款最新模子创造出更多可能。
这次,Gemma 4 12B 模子具有以下几大特点:
全新的和谐架构:不再使用多模态编码器,视觉和音频输入不错胜仗插足 LLM 骨干收集。
更强的推理才气:在基准测试中的推崇接近谷歌的 26B 模子,或然复古开阔的多步推理和智能体责任流。
符合札记原土产货启动:模子范畴敷裕小,只需要 16GB 显存或和谐内存即可在土产货启动。
敞开且易于取得:接管 Apache 2.0 许可证发布,并复古闲居的诱骗者生态。
复古草稿模子加快:Gemma 4 12B 配备了多 Token 瞻望(MTP)草稿模子,可用于镌汰延长。
当今,用户不错通过 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent App 以及 LiteRT-LM CLI 等渠说念进行试用。
在 GPQA Diamond、BBEH、MMLU Pro、LiveCode Bench、DocVQA、InfoVQA、MMMU Pro 和 MRC v2.8 needle 128k(average)等一系列基准测试中,Gemma 4 12B 的推崇接近谷歌更大的 26B MoE 模子,但全体内存占用不到后者的一半。

而况,它的范畴敷裕小,凤凰彩票中国官网入口不错在配备 16GB 内存的阔绰级札记本电脑上土产货启动,从而把开阔的多模态体验和智能体才气带到你的个东说念主配置上。
有东说念主在一张 RTX 4090 上土产货启动了 Gemma 4 12B 和 Gemma 4 26B-A4B,并给它们顶住了合并个任务:在不使用任何库的情况下,用单个文献写出一个自包含的 HTML5 Canvas 动画,并加入真确物理成果。测试包含三个场景:高尔顿板、两个方块与墙面碰撞,以及糊涂三重摆。输出放弃如下:
Gemma 4 26B-A4B:占用 15GB 显存,生成 6.9k tokens,速率 138 tokens/s
Gemma 4 12B:占用 9GB 显存,生成 8.9k tokens,速率 80 tokens/s
同属 Gemma 4 眷属,但 26B-A4B 在三个场景中皆胜出,而且启动速率快了约 1.7 倍,它的活跃参数目只须 4B。不外,12B 的推崇也十分接近,同期显存占用实在只须一半。这也让它成为 16GB 札记本上的理念念土产货模子。


另外,Gemma 4 12B 最凸起的场地在于,它责罚视觉和音频输入的神气愈加精简。
传统多模态模子经常依赖寂寥编码器,先把图像和音频调停成模子可理解的示意,再传递给话语模子。但这些别离式编码器会带来荒谬延长,也会增多内存占用。因此,谷歌在磨砺 Gemma 4 12B 时接管了无编码器架构,让音频和视觉输入或然胜仗整合进模子。
Gemma 4 12B 原生责罚多模态输入的神气如下:
视觉:谷歌用一个轻量级镶嵌模块替代了 Gemma 4 的视觉编码器。这个模块由一次矩阵乘法、位置镶嵌和归一化构成,让 LLM 骨干收集经受视觉责罚。
音频:音频责罚进一步简化。谷歌全皆移除了音频编码器,并将原始音频信号投影到与文本 token 交流的维度空间中。
在 Google AI Edge Eloquent App 中,Gemma 4 12B 不错全皆离线完谚语音输入的转录、圭臬整理和翻译。
凤凰彩票(中国)官方网站