作者patvessel (我覺得推文用句號的都AI)
看板AI_Art
標題[情報] Gemma4 12B unified 發布
時間Thu Jun 4 02:52:58 2026
連結
https://huggingface.co/google/gemma-4-12B
雖然我通常不太相信基準測試 不過同系列的內部比較應該還是有一定價值
基本上全面勝過Gemma3-27B (雖然似乎是reasonning開啟狀態下)
對於硬體跑不動30B的使用者來說應該是不錯的新選擇
Google提到特別適合16GB的VRAM 不過量化選一下
再對context window做些調整12GB應該也夠
另外根據這裡的情報
https://blog.google/innovation-and-ai/technology/developers-tools/introducing-
gemma-4-12b/
這個比同系列兄弟晚一點誕生的Gemma4模型依然玩了些新花樣
首先其原生配備MTP草稿
其次它是不需要編碼器和連接器來處理影音的語義給文字推理模組的
主要的差異大概有這些
1.多模態輸入時TTFT延遲較低
2.架構簡化與其帶來的參數減量 以及隨之而來的記憶體使用削減
3.訓練過程中文字部分就已經學習過如何處理非文字類資訊所以可能表現較佳
其他詳細資訊請自己移步該文章
另外既然Gemma4依然在持續發布新成員
那麼大家早就知道其存在的124B或許也可以抱點希望
附錄
│系列內部基準測試比較
┌─────┬─────┬─────┬────┬────┬────┬────┐
│Benchmark │Gemma 4 31│Gemma 4 26│Gemma 4 │Gemma 4 │Gemma 4 │Gemma 3 │
│ │ B │ B A4B │12B Unif│ E4B │ E2B │27B (no │
│ │ │ │ ied │ │ │ think) │
├─────┼─────┼─────┼────┼────┼────┼────┤
│**General │ │ │ │ │ │ │
│/ Reasonin│ │ │ │ │ │ │
│ g** │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│ MMLU Pro │ 85.2% │ 82.6% │ 77.2% │ 69.4% │ 60.0% │ 67.6% │
├─────┼─────┼─────┼────┼────┼────┼────┤
│AIME 2026 │ 89.2% │ 88.3% │ 77.5% │ 42.5% │ 37.5% │ 20.8% │
│ no tools │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│LiveCodeBe│ 80.0% │ 77.1% │ 72.0% │ 52.0% │ 44.0% │ 29.1% │
│ nch v6 │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│Codeforces│ 2150 │ 1718 │ 1659 │ 940 │ 633 │ 110 │
│ ELO │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│GPQA Diamo│ 84.3% │ 82.3% │ 78.8% │ 58.6% │ 43.4% │ 42.4% │
│ nd │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│Tau2 (aver│ 76.9% │ 68.2% │ 69.0% │ 42.2% │ 24.5% │ 16.2% │
│age over 3│ │ │ │ │ │ │
│ ) │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│HLE no too│ 19.5% │ 8.7% │ 5.2% │ - │ - │ - │
│ ls │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│HLE with s│ 26.5% │ 17.2% │ - │ - │ - │ - │
│ earch │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│BigBench E│ 74.4% │ 64.8% │ 53.0% │ 33.1% │ 21.9% │ 19.3% │
│xtra Hard │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│ MMMLU │ 88.4% │ 86.3% │ 83.4% │ 76.6% │ 67.4% │ 70.7% │
├─────┼─────┼─────┼────┼────┼────┼────┤
│**Vision**│ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│ MMMU Pro │ 76.9% │ 73.8% │ 69.1% │ 52.6% │ 44.2% │ 49.7% │
├─────┼─────┼─────┼────┼────┼────┼────┤
│OmniDocBen│ 0.131 │ 0.149 │ 0.164 │ 0.181 │ 0.290 │ 0.365 │
│ch 1.5 (lo│ │ │ │ │ │ │
│wer is bet│ │ │ │ │ │ │
│ ter) │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│MATH-Visio│ 85.6% │ 82.4% │ 79.7% │ 59.5% │ 52.4% │ 46.0% │
│ n │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│MedXPertQA│ 61.3% │ 58.1% │ 48.7% │ 28.7% │ 23.5% │ - │
│ MM │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│**Audio** │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│ CoVoST │ - │ - │ 38.5* │ 35.5 │ 43.3 │ 4.7 │
├─────┼─────┼─────┼────┼────┼────┼────┤
│FLEURS (lo│ - │ - │ 0.069* │ 0.08 │ 0.09 │ - │
│wer is bet│ │ │ │ │ │ │
│ ter) │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│**Long Con│ │ │ │ │ │ │
│ text** │ │ │ │ │ │ │
├─────┼─────┼─────┼────┼────┼────┼────┤
│MRCR v2 8 │ 66.4% │ 44.1% │ 43.4% │ 25.4% │ 19.1% │ 13.5% │
│needle 128│ │ │ │ │ │ │
│k (average│ │ │ │ │ │ │
│ ) │ │ │ │ │ │ │
└─────┴─────┴─────┴────┴────┴────┴────┘
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.229.28.82 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1780512782.A.135.html
推 necrophagist: 100B上下的開源模型要再更強些 aipc才會顯得有價值 06/04 02:59
但最弔詭的是現在市面上實際掛著AIPC在賣的機器跟實際上AI的使用反而沒什麼關聯
※ 編輯: patvessel (125.229.28.82 臺灣), 06/04/2026 03:19:18
→ nakibasara: 奇怪...我的LM STUDIO一值沒辦法載入模型,會發生錯誤 06/04 05:18
→ nakibasara: 但我27B都能載進去了。能更新的也都更新了 06/04 05:19
推 YCL13: llama才剛對這個更新...lm studio應該還需要一點時間吧 06/04 07:04
推 error405: 把兄弟相加除二的模型XD 06/04 07:59
→ dreamnook2: 看成 undefined 06/04 08:41
推 nakibasara: RUNTIME更新後可以用了 06/04 10:20
推 lordmi: unsloth剛剛上了。agent還是用Dense比較可靠,測一下跟31B 06/04 10:28
→ lordmi: 差多少,不要太笨的話就可以改成主力了 06/04 10:28
推 ninnyshadow: 看來我不用換顯卡了.. 坐等破限版 06/04 12:00
推 Supasizeit: MacBook Air 32g就是我的AI PC XDDDD 06/04 12:40
→ Supasizeit: 31B 可以併發2-3路 06/04 12:42
推 Supasizeit: 用桌機做事 LLM跑在筆電 超搞笑 06/04 12:44
推 lordmi: 測日常事務agent chat沒什麼問題,思維深度大概落後閉源 06/04 14:36
→ lordmi: 版半年。無修版今早就出來了,等有工作流的人測吧 06/04 14:36