鹤壁不锈钢保温智谱新模子也用DeepSeek的MLA, 苹果M5就能跑

手机：18632699551（微信同号）

智谱AI上市后鹤壁不锈钢保温，再发新服从。

开源轻量大言语模子GLM-4.7-Flash，径直替代前代GLM-4.5-Flash，API费绽放调用。

这是个30B总参数、仅3B激活参数的混（MoE）架构模子，官给它的定位是“腹地编程与智能体助手”。

在SWE-bench Verified代码开辟测试中，GLM-4.7-Flash拿下59.2分，“东谈主类后的磨砺”等评测中也权贵越同限制的Qwen3-30B和GPT-OSS-20B。

动作昨年12月发布的旗舰模子GLM-4.7的轻量化版块，GLM-4.7-Flash经受了GLM-4系列在编码和理上的中枢才智，同期针对率作念了门化。

除了编程，官还荐将这个模子用于创意写稿、翻译、长崎岖文任务鹤壁不锈钢保温，以致角饰演场景。

30B参数只激活3B，MLA架构次上线

GLM-4.7-Flash沿用了该系列的”混念念考模子”的筹算。

总参数目300亿，但试验理时仅激活约30亿参数，铁皮保温使模子在保握才智的同期大幅缩短想到支拨。

崎岖文窗口补助到200K，既不错云霄API调用，也补助腹地部署。

当今官还莫得给出时刻论说，多细节还要从竖立文献我方挖掘。

有开发者恬逸到个艰巨细节：GLM团队此次次接管了MLA（Multi-head Latent Attention）架构。这架构此前由DeepSeek-v2初使用并考据有鹤壁不锈钢保温，如今智谱也跟进了。

从具体结构来看，GLM-4.7-Flash的度与GLM-4.5 Air和Qwen3-30B-A3B接近，但数目有所不同——它接管64个而非128个，激活时只调用5个（算上分享）。

当今发布不到12小时，HuggingFace、vLLM等主流平台就提供了day0补助。

官也在时分提供了对华为昇腾NPU的补助。

腹地部署面，经开发者实测在32GB统内存、M5芯片的苹果札记本上能跑到43 token/s的速率。

官API平台上基础版GLM-4.7-Flash费（限1个并发），速版GLM-4.7-FlashX价钱也端白菜。

对比同类模子，在崎岖文长度补助和输出token价钱上有势，但当今延伸和隐晦量还有待化。

HuggingFace：https://huggingface.co/zai-org/GLM-4.7-Flash

参考齐集：[1]https://x.com/Zai_org/status/2013261304060866758鹤壁不锈钢保温

推荐资讯

鹤壁不锈钢保温 智谱新模子也用DeepSeek的MLA, 苹果M5就能跑