手机:18632699551(微信同号)智谱AI上市后鹤壁不锈钢保温,再发新服从。
开源轻量大言语模子GLM-4.7-Flash,径直替代前代GLM-4.5-Flash,API费绽放调用。
这是个30B总参数、仅3B激活参数的混(MoE)架构模子,官给它的定位是“腹地编程与智能体助手”。
在SWE-bench Verified代码开辟测试中,GLM-4.7-Flash拿下59.2分,“东谈主类后的磨砺”等评测中也权贵越同限制的Qwen3-30B和GPT-OSS-20B。
动作昨年12月发布的旗舰模子GLM-4.7的轻量化版块,GLM-4.7-Flash经受了GLM-4系列在编码和理上的中枢才智,同期针对率作念了门化。
除了编程,官还荐将这个模子用于创意写稿、翻译、长崎岖文任务鹤壁不锈钢保温,以致角饰演场景。
30B参数只激活3B,MLA架构次上线
GLM-4.7-Flash沿用了该系列的”混念念考模子”的筹算。
总参数目300亿,但试验理时仅激活约30亿参数,铁皮保温使模子在保握才智的同期大幅缩短想到支拨。
崎岖文窗口补助到200K,既不错云霄API调用,也补助腹地部署。
当今官还莫得给出时刻论说,多细节还要从竖立文献我方挖掘。
有开发者恬逸到个艰巨细节:GLM团队此次次接管了MLA(Multi-head Latent Attention)架构。这架构此前由DeepSeek-v2初使用并考据有鹤壁不锈钢保温,如今智谱也跟进了。
从具体结构来看,GLM-4.7-Flash的度与GLM-4.5 Air和Qwen3-30B-A3B接近,但数目有所不同——它接管64个而非128个,激活时只调用5个(算上分享)。
当今发布不到12小时,HuggingFace、vLLM等主流平台就提供了day0补助。
官也在时分提供了对华为昇腾NPU的补助。
腹地部署面,经开发者实测在32GB统内存、M5芯片的苹果札记本上能跑到43 token/s的速率。
官API平台上基础版GLM-4.7-Flash费(限1个并发),速版GLM-4.7-FlashX价钱也端白菜。
对比同类模子,在崎岖文长度补助和输出token价钱上有势,但当今延伸和隐晦量还有待化。
HuggingFace:https://huggingface.co/zai-org/GLM-4.7-Flash
参考齐集:[1]https://x.com/Zai_org/status/2013261304060866758鹤壁不锈钢保温
相关词条:不锈钢保温