0404本地LLM测试
本地开源 LLM 应用实测 4月4号
(提示,本文由AI整理)
这篇文章的重点不是复述每一道题,而是把已经测过的结果重新排版成更直观的表格,并在表格基础上给出一些更容易落地的观察:哪些模型更适合前端生成,哪些模型在高难数学上更稳,哪些模型在安全知识解释上更接近高质量参考答案。
本次整理的测试对象主要集中在本地可运行的 Qwen 系列模型,同时保留了少量 DeepSeek 与 GPT 参考分,方便横向比较。
参与测试模型
- Qwen3-4b-thinking-2507 Q4KM
- Qwen3-30b-thinking-2507 Q4KM
- Qwen3-30b-instruct-2507 Q4KM
- Qwen3-32b Q4KM
- Qwen3.5-27b Q4KM
- Qwen3.5-9b Q5KM
- Qwen3.5-4b Q8
- Qwen3.5-35b-a3b Q4KM
阅读说明
- 本文只整理原始测试记录中已经给出的结果,不额外改判。
100+20表示基础分 100,额外加分 20。-表示原文未测或未给出分数。- 前端部分从
Qwen3.5开始,原文已说明部分模型不再测试“躲避方块”和“贪吃蛇”。
1. 数学 / 计算能力
这一部分主要记录了 4 类新版数学测试题:
- 24 点
- 普通应用题
- 困难应用题
- 普通高数
测试题目示例
24 点
1 3 9 10,每个数字只能用一次,通过括号和四则运算如何得到 24
普通应用题
一个三棱柱的上底和下底为两个等腰直角三角形,每个等腰三角形的直角边长为 16。直棱柱的高度等于等腰直角三角形的斜边长度。求直棱柱的表面积。
标准答案:768 + 512√2
困难应用题
一个圆台形的木块,上、下底面的半径分别为 4 和 8,高为 3,用它加工成一个与圆台等高的四棱台,棱台下底面为一边长等于 9 的矩形,且使其体积最大。现再从余下的四块木料中选择一块车削加工成一个球,则所得球的半径最大值是?(加工过程中不计损耗)
参考结果:1 左右都对(GPT5 约为 1.075)
普通高数
计算矢量场 F(x,y,z)=(x^3,y^3,z^3) 穿过由立方体表面 S:|x|≤a,|y|≤a,|z|≤a 的通量,并验证高斯定理(散度定理)在此场景下的正确性。
单项结果
| 模型 | 24点 | 普通应用题 | 困难应用题 | 普通高数 | 通过数 |
|---|---|---|---|---|---|
| Qwen3-4b-thinking-2507 | ✅ | ✅ | ❌ | ✅ | 3/4 |
| Qwen3-30b-thinking-2507 | ✅ | ✅ | ❌ | ✅ | 3/4 |
| Qwen3-30b-instruct-2507 | ✅ | ✅ | ❌ | ✅ | 3/4 |
| Qwen3-32b | ✅ | ✅ | ❌ | ✅ | 3/4 |
| Qwen3.5-27b | ✅ | ✅ | ✅ | ✅ | 4/4 |
| Qwen3.5-9b | ✅ | ✅ | 超过 32K 未解出 | ✅ | 3/4 |
| Qwen3.5-4b | ✅ | ✅ | 超过 32K 未解出 | ✅ | 3/4 |
| Qwen3.5-35b-a3b | ✅ | ✅ | ✅ | ✅ | 4/4 |
数学表现观察
Qwen3-4b-thinking、Qwen3-30b-thinking、Qwen3-30b-instruct与Qwen3-32b的表现几乎落在同一档,区别不大,主要都卡在同一题困难应用题上。Qwen3.5-9b和Qwen3.5-4b在高难题上的瓶颈比较明显,原文记录中都出现了超过32K仍未解出的情况。
2. 前端代码能力
前端代码能力部分主要测试了下面几个项目:
- 数字时钟
- 数字日历
- 躲避方块(旧)
- 贪吃蛇(旧)
- 吃豆人
测试题目示例
数字时钟
使用 HTML、CSS、JavaScript 编写一个单文件的网页,绘制一个带有时针、分针、秒针的模拟钟表,并包含数字刻度(1~12)。钟表应实时运行并更新。
功能要求:
- 圆形表盘,刻度清晰
- 显示 12 个数字刻度
- 有时针、分针、秒针,并随时间实时转动
- 所有代码写在一个 HTML 文件中
数字日历
使用 HTML、CSS、JavaScript 编写一个单文件网页,实现一个可拖动、缩放的日历组件,支持显示当前月份的所有日期,并高亮今天的日期。
功能要求:
- 显示当前月份的日历,按周排列
- 高亮显示当天日期
- 用户可以点击“上一月”“下一月”切换月份
- 整个日历组件可以用鼠标拖动位置
- 用户可以拖拽右下角改变日历组件大小,日期布局随大小自适应调整
躲避方块
使用 HTML、CSS、JavaScript 编写一个单文件网页,实现一个“躲避方块”小游戏。
功能要求:
- 游戏区域为固定大小矩形,例如
600×400 - 玩家用键盘方向键控制一个小方块或圆形上下左右移动
- 随机生成若干个移动障碍物,障碍物会不断移动并反弹
- 玩家与障碍物碰撞后游戏结束,并提示得分
- 得分随时间累加,生存时间越长分数越高
加分点:
- 惊艳的视觉效果
10 - 流畅的游戏体验
10
贪吃蛇
使用 HTML + CSS + JavaScript 实现一个可运行的贪吃蛇小游戏。
功能要求:
- 固定大小游戏区域,并划分为网格
- 蛇由连续方块组成,每次移动一格
- 使用键盘方向键控制蛇的方向,禁止直接反向移动
- 随机生成食物,吃到后长度
+1,得分+1 - 撞墙或撞到自己后游戏结束
- 页面显示当前得分
加分项:
- 游戏结束后提供“重新开始”按钮
10 - 添加速度递增机制,分数越高速度越快
10
吃豆人
使用 HTML + CSS + JavaScript 实现一个简化版吃豆人游戏。目标是控制吃豆人吃掉场景中的豆子,同时避免被鬼怪碰到。
功能要求:
- 游戏区域为
400×400像素方形区域,并划分为网格 - 使用方向键控制吃豆人的移动
- 吃豆人经过豆子时得分
+1 - 游戏中存在若干鬼怪,鬼怪会在迷宫中移动
- 如果鬼怪碰到吃豆人,游戏结束并提示得分
- 游戏结束后提供重新开始按钮
- 随着游戏时间推移,鬼怪移动速度逐渐加快
加分项:
- 为鬼怪加入智能行为,例如追击吃豆人
10 - 游戏结束后加入简单动画效果
10 - 添加背景音乐或简单音效
10 - 随机生成豆子并增加不同得分的豆子类型
10
单项分数表
| 模型 | 数字时钟 | 数字日历 | 躲避方块 | 贪吃蛇 | 吃豆人 | 已测总分 | 已测项均分 |
|---|---|---|---|---|---|---|---|
| Qwen3-4b-thinking-2507 | 0 | 0 | 50 | 50 | 20 | 120 | 30.0 |
| Qwen3-30b-thinking-2507 | 10 | 0 | 120 | 100 | 55 | 275 | 68.8 |
| Qwen3-30b-instruct-2507 | 20 | 85 | 100 | 110 | 50 | 345 | 86.3 |
| Qwen3-32b | 90 | 100 | 110 | 90 | 90 | 390 | 97.5 |
| Qwen3.5-4b | 50 | 90 | 120 | - | 55 | 265 | 88.3 |
| Qwen3.5-9b | 80 | 95 | - | - | 55 | 150 | 75.0 |
| Qwen3.5-35b-a3b | 100 | 100+ | 120 | - | 70 | 390+ | 97.5+ |
前端表现观察
- 如果只看综合完成度,
Qwen3-32b是这一组里最稳的一档,分数高,而且几乎没有明显短板。 Qwen3.5-35b-a3b的上限同样非常高,尤其在数字时钟、数字日历和躲避方块上拿到了非常强的结果,不过它的测试项不完整,因此更适合视为“高上限样本”。Qwen3-30b-instruct-2507明显优于Qwen3-30b-thinking-2507,差距主要体现在数字日历这类更依赖直接工程落地的任务上。Qwen3-4b-thinking-2507在前端任务上偏弱,数字日历为0分,说明在复杂交互组件生成上还有明显短板。Qwen3.5-4b和Qwen3.5-9b在基础前端页面和部分交互组件上的表现其实不差,但复杂项目样本还不够多,结论更适合谨慎看待。
关键项目横向对比
数字日历
| 模型 | 分数 |
|---|---|
| Qwen3-32b | 100 |
| Qwen3.5-35b-a3b | 100+ |
| Qwen3.5-9b | 95 |
| Qwen3.5-4b | 90 |
| Qwen3-30b-instruct-2507 | 85 |
| Qwen3-4b-thinking-2507 | 0 |
| Qwen3-30b-thinking-2507 | 0 |
躲避方块
| 模型 | 分数 |
|---|---|
| Qwen3-30b-thinking-2507 | 120 |
| Qwen3.5-4b | 120 |
| Qwen3.5-35b-a3b | 120 |
| Qwen3-32b | 110 |
| Qwen3-30b-instruct-2507 | 100 |
| Qwen3-4b-thinking-2507 | 50 |
吃豆人
| 模型 | 分数 |
|---|---|
| Qwen3-32b | 90 |
| Qwen3.5-35b-a3b | 70 |
| Qwen3-30b-thinking-2507 | 55 |
| Qwen3.5-4b | 55 |
| Qwen3.5-9b | 55 |
| Qwen3-30b-instruct-2507 | 50 |
| Qwen3-4b-thinking-2507 | 20 |
3. CTF / 网络安全知识
这一部分主要比较两类更偏实用解释能力的题目:
- 对
fscan的工具描述 - 对“反弹 shell”概念的解释
新版评分由 GPT5.4-Thinking 给出,并以 9 分 作为参考基准。
测试题目示例
fscan 工具描述
请你描述一下在网络安全领域,fscan是什么,怎么使用
反弹 shell 概念解释
请你描述一下反弹shell是什么
单项分数表
| 模型 | fscan 描述 | 反弹 shell 描述 | 平均分 |
|---|---|---|---|
| GPT5.4-Thinking(参考基准) | 9.0 | 9.0 | 9.0 |
| DeepSeek V3.2 | 8.7 | 7.8 | 8.25 |
| Qwen3.5-35b-a3b | 8.3 | 8.9 | 8.60 |
| Qwen3.5-9b | 6.8 | 8.7 | 7.75 |
| Qwen3.5-4b | 5.9 | 7.6 | 6.75 |
安全知识表现观察
Qwen3.5-35b-a3b是这一组里最接近参考基准的一档,尤其在“反弹 shell”解释题上拿到了8.9,已经非常接近高质量答案。Qwen3.5-9b在概念解释题上的表现明显强于工具说明题,说明它更适合讲清楚原理,不太擅长给出准确、扎实的具体工具介绍。Qwen3.5-4b的主要问题仍然是专业准确度不够稳定,尤其是在fscan这类工具题上偏差比较明显。DeepSeek V3.2的整体均衡性不错,但从分数波动来看,它在不同题型之间的稳定性仍略逊于Qwen3.5-35b-a3b。
4. 结论总结
如果只提炼最核心的结论,这组测试大致可以浓缩成下面几点:
- 数学能力最完整、最稳定的一档,是
Qwen3.5-27b。 - 前端代码综合表现最稳的,是
Qwen3-32b。 - 如果关注安全知识解释能力,
Qwen3.5-35b-a3b最接近高分参考答案。 - 小模型并非完全不能用,
Qwen3.5-4b、Qwen3.5-9b在部分前端任务上已经能交付可用结果,但在高难推理和专业准确度上波动依然明显。 - 至少从这组前端样本来看,同尺寸下
instruct版本在“直接产出可用结果”这件事上,往往比thinking更占优势。
5. 写在最后
如果把这组测试放到“实际使用”这个语境里去看,一个很直观的结论是:本地开源模型已经足够承担不少真实任务,尤其是前端页面生成、小游戏原型、基础说明类问答,这些场景里,中高规格模型已经具备相当不错的可用性。
但另一方面,一旦任务进入高难数学推理、复杂长链思考,或者对专业知识准确性要求极高的场景,模型之间的差距会迅速被放大。参数量当然重要,但并不是唯一答案。具体模型版本、指令风格、任务类型匹配度,以及是否经过同类型实测,往往比单纯看参数规模更有参考价值。
