本地开源 LLM 应用实测 4月4号

（提示，本文由AI整理）

这篇文章的重点不是复述每一道题，而是把已经测过的结果重新排版成更直观的表格，并在表格基础上给出一些更容易落地的观察：哪些模型更适合前端生成，哪些模型在高难数学上更稳，哪些模型在安全知识解释上更接近高质量参考答案。

本次整理的测试对象主要集中在本地可运行的 Qwen 系列模型，同时保留了少量 DeepSeek 与 GPT 参考分，方便横向比较。

参与测试模型

Qwen3-4b-thinking-2507 Q4KM
Qwen3-30b-thinking-2507 Q4KM
Qwen3-30b-instruct-2507 Q4KM
Qwen3-32b Q4KM
Qwen3.5-27b Q4KM
Qwen3.5-9b Q5KM
Qwen3.5-4b Q8
Qwen3.5-35b-a3b Q4KM

阅读说明

本文只整理原始测试记录中已经给出的结果，不额外改判。
100+20 表示基础分 100，额外加分 20。
- 表示原文未测或未给出分数。
前端部分从 Qwen3.5 开始，原文已说明部分模型不再测试“躲避方块”和“贪吃蛇”。

1. 数学 / 计算能力

这一部分主要记录了 4 类新版数学测试题：

24 点
普通应用题
困难应用题
普通高数

测试题目示例

24 点

1 3 9 10，每个数字只能用一次，通过括号和四则运算如何得到 24

普通应用题

一个三棱柱的上底和下底为两个等腰直角三角形，每个等腰三角形的直角边长为 16。直棱柱的高度等于等腰直角三角形的斜边长度。求直棱柱的表面积。

标准答案：768 + 512√2

困难应用题

一个圆台形的木块，上、下底面的半径分别为 4 和 8，高为 3，用它加工成一个与圆台等高的四棱台，棱台下底面为一边长等于 9 的矩形，且使其体积最大。现再从余下的四块木料中选择一块车削加工成一个球，则所得球的半径最大值是？（加工过程中不计损耗）

参考结果：1 左右都对（GPT5 约为 1.075）

普通高数

计算矢量场 F(x,y,z)=(x^3,y^3,z^3) 穿过由立方体表面 S:|x|≤a,|y|≤a,|z|≤a 的通量，并验证高斯定理（散度定理）在此场景下的正确性。

单项结果

模型	24点	普通应用题	困难应用题	普通高数	通过数
Qwen3-4b-thinking-2507	✅	✅	❌	✅	3/4
Qwen3-30b-thinking-2507	✅	✅	❌	✅	3/4
Qwen3-30b-instruct-2507	✅	✅	❌	✅	3/4
Qwen3-32b	✅	✅	❌	✅	3/4
Qwen3.5-27b	✅	✅	✅	✅	4/4
Qwen3.5-9b	✅	✅	超过 32K 未解出	✅	3/4
Qwen3.5-4b	✅	✅	超过 32K 未解出	✅	3/4
Qwen3.5-35b-a3b	✅	✅	✅	✅	4/4

数学表现观察

Qwen3-4b-thinking、Qwen3-30b-thinking、Qwen3-30b-instruct 与 Qwen3-32b 的表现几乎落在同一档，区别不大，主要都卡在同一题困难应用题上。
Qwen3.5-9b 和 Qwen3.5-4b 在高难题上的瓶颈比较明显，原文记录中都出现了超过 32K 仍未解出的情况。

2. 前端代码能力

前端代码能力部分主要测试了下面几个项目：

数字时钟
数字日历
躲避方块(旧)
贪吃蛇(旧)
吃豆人

测试题目示例

数字时钟

使用 HTML、CSS、JavaScript 编写一个单文件的网页，绘制一个带有时针、分针、秒针的模拟钟表，并包含数字刻度（1~12）。钟表应实时运行并更新。

功能要求：

圆形表盘，刻度清晰
显示 12 个数字刻度
有时针、分针、秒针，并随时间实时转动
所有代码写在一个 HTML 文件中

数字日历

使用 HTML、CSS、JavaScript 编写一个单文件网页，实现一个可拖动、缩放的日历组件，支持显示当前月份的所有日期，并高亮今天的日期。

功能要求：

显示当前月份的日历，按周排列
高亮显示当天日期
用户可以点击“上一月”“下一月”切换月份
整个日历组件可以用鼠标拖动位置
用户可以拖拽右下角改变日历组件大小，日期布局随大小自适应调整

躲避方块

使用 HTML、CSS、JavaScript 编写一个单文件网页，实现一个“躲避方块”小游戏。

功能要求：

游戏区域为固定大小矩形，例如 600×400
玩家用键盘方向键控制一个小方块或圆形上下左右移动
随机生成若干个移动障碍物，障碍物会不断移动并反弹
玩家与障碍物碰撞后游戏结束，并提示得分
得分随时间累加，生存时间越长分数越高

加分点：

惊艳的视觉效果 10
流畅的游戏体验 10

贪吃蛇

使用 HTML + CSS + JavaScript 实现一个可运行的贪吃蛇小游戏。

功能要求：

固定大小游戏区域，并划分为网格
蛇由连续方块组成，每次移动一格
使用键盘方向键控制蛇的方向，禁止直接反向移动
随机生成食物，吃到后长度 +1，得分 +1
撞墙或撞到自己后游戏结束
页面显示当前得分

加分项：

游戏结束后提供“重新开始”按钮 10
添加速度递增机制，分数越高速度越快 10

吃豆人

使用 HTML + CSS + JavaScript 实现一个简化版吃豆人游戏。目标是控制吃豆人吃掉场景中的豆子，同时避免被鬼怪碰到。

功能要求：

游戏区域为 400×400 像素方形区域，并划分为网格
使用方向键控制吃豆人的移动
吃豆人经过豆子时得分 +1
游戏中存在若干鬼怪，鬼怪会在迷宫中移动
如果鬼怪碰到吃豆人，游戏结束并提示得分
游戏结束后提供重新开始按钮
随着游戏时间推移，鬼怪移动速度逐渐加快

加分项：

为鬼怪加入智能行为，例如追击吃豆人 10
游戏结束后加入简单动画效果 10
添加背景音乐或简单音效 10
随机生成豆子并增加不同得分的豆子类型 10

单项分数表

模型	数字时钟	数字日历	躲避方块	贪吃蛇	吃豆人	已测总分	已测项均分
Qwen3-4b-thinking-2507	0	0	50	50	20	120	30.0
Qwen3-30b-thinking-2507	10	0	120	100	55	275	68.8
Qwen3-30b-instruct-2507	20	85	100	110	50	345	86.3
Qwen3-32b	90	100	110	90	90	390	97.5
Qwen3.5-4b	50	90	120	-	55	265	88.3
Qwen3.5-9b	80	95	-	-	55	150	75.0
Qwen3.5-35b-a3b	100	100+	120	-	70	390+	97.5+

前端表现观察

如果只看综合完成度，Qwen3-32b 是这一组里最稳的一档，分数高，而且几乎没有明显短板。
Qwen3.5-35b-a3b 的上限同样非常高，尤其在 数字时钟、数字日历 和 躲避方块 上拿到了非常强的结果，不过它的测试项不完整，因此更适合视为“高上限样本”。
Qwen3-30b-instruct-2507 明显优于 Qwen3-30b-thinking-2507，差距主要体现在数字日历这类更依赖直接工程落地的任务上。
Qwen3-4b-thinking-2507 在前端任务上偏弱，数字日历为 0 分，说明在复杂交互组件生成上还有明显短板。
Qwen3.5-4b 和 Qwen3.5-9b 在基础前端页面和部分交互组件上的表现其实不差，但复杂项目样本还不够多，结论更适合谨慎看待。

关键项目横向对比

数字日历

模型	分数
Qwen3-32b	100
Qwen3.5-35b-a3b	100+
Qwen3.5-9b	95
Qwen3.5-4b	90
Qwen3-30b-instruct-2507	85
Qwen3-4b-thinking-2507	0
Qwen3-30b-thinking-2507	0

躲避方块

模型	分数
Qwen3-30b-thinking-2507	120
Qwen3.5-4b	120
Qwen3.5-35b-a3b	120
Qwen3-32b	110
Qwen3-30b-instruct-2507	100
Qwen3-4b-thinking-2507	50

吃豆人

模型	分数
Qwen3-32b	90
Qwen3.5-35b-a3b	70
Qwen3-30b-thinking-2507	55
Qwen3.5-4b	55
Qwen3.5-9b	55
Qwen3-30b-instruct-2507	50
Qwen3-4b-thinking-2507	20

3. CTF / 网络安全知识

这一部分主要比较两类更偏实用解释能力的题目：

对 fscan 的工具描述
对“反弹 shell”概念的解释

新版评分由 GPT5.4-Thinking 给出，并以 9 分 作为参考基准。

测试题目示例

fscan 工具描述

请你描述一下在网络安全领域，fscan是什么，怎么使用

反弹 shell 概念解释

请你描述一下反弹shell是什么

单项分数表

模型	fscan 描述	反弹 shell 描述	平均分
GPT5.4-Thinking（参考基准）	9.0	9.0	9.0
DeepSeek V3.2	8.7	7.8	8.25
Qwen3.5-35b-a3b	8.3	8.9	8.60
Qwen3.5-9b	6.8	8.7	7.75
Qwen3.5-4b	5.9	7.6	6.75

安全知识表现观察

Qwen3.5-35b-a3b 是这一组里最接近参考基准的一档，尤其在“反弹 shell”解释题上拿到了 8.9，已经非常接近高质量答案。
Qwen3.5-9b 在概念解释题上的表现明显强于工具说明题，说明它更适合讲清楚原理，不太擅长给出准确、扎实的具体工具介绍。
Qwen3.5-4b 的主要问题仍然是专业准确度不够稳定，尤其是在 fscan 这类工具题上偏差比较明显。
DeepSeek V3.2 的整体均衡性不错，但从分数波动来看，它在不同题型之间的稳定性仍略逊于 Qwen3.5-35b-a3b。

4. 结论总结

如果只提炼最核心的结论，这组测试大致可以浓缩成下面几点：

数学能力最完整、最稳定的一档，是 Qwen3.5-27b。
前端代码综合表现最稳的，是 Qwen3-32b。
如果关注安全知识解释能力，Qwen3.5-35b-a3b 最接近高分参考答案。
小模型并非完全不能用，Qwen3.5-4b、Qwen3.5-9b 在部分前端任务上已经能交付可用结果，但在高难推理和专业准确度上波动依然明显。
至少从这组前端样本来看，同尺寸下 instruct 版本在“直接产出可用结果”这件事上，往往比 thinking 更占优势。

5. 写在最后

如果把这组测试放到“实际使用”这个语境里去看，一个很直观的结论是：本地开源模型已经足够承担不少真实任务，尤其是前端页面生成、小游戏原型、基础说明类问答，这些场景里，中高规格模型已经具备相当不错的可用性。

但另一方面，一旦任务进入高难数学推理、复杂长链思考，或者对专业知识准确性要求极高的场景，模型之间的差距会迅速被放大。参数量当然重要，但并不是唯一答案。具体模型版本、指令风格、任务类型匹配度，以及是否经过同类型实测，往往比单纯看参数规模更有参考价值。