本地开源 LLM 应用实测 4月4号

(提示,本文由AI整理)

这篇文章的重点不是复述每一道题,而是把已经测过的结果重新排版成更直观的表格,并在表格基础上给出一些更容易落地的观察:哪些模型更适合前端生成,哪些模型在高难数学上更稳,哪些模型在安全知识解释上更接近高质量参考答案。

本次整理的测试对象主要集中在本地可运行的 Qwen 系列模型,同时保留了少量 DeepSeek 与 GPT 参考分,方便横向比较。

参与测试模型

  • Qwen3-4b-thinking-2507 Q4KM
  • Qwen3-30b-thinking-2507 Q4KM
  • Qwen3-30b-instruct-2507 Q4KM
  • Qwen3-32b Q4KM
  • Qwen3.5-27b Q4KM
  • Qwen3.5-9b Q5KM
  • Qwen3.5-4b Q8
  • Qwen3.5-35b-a3b Q4KM

阅读说明

  • 本文只整理原始测试记录中已经给出的结果,不额外改判。
  • 100+20 表示基础分 100,额外加分 20。
  • - 表示原文未测或未给出分数。
  • 前端部分从 Qwen3.5 开始,原文已说明部分模型不再测试“躲避方块”和“贪吃蛇”。

1. 数学 / 计算能力

这一部分主要记录了 4 类新版数学测试题:

  • 24 点
  • 普通应用题
  • 困难应用题
  • 普通高数

测试题目示例

24 点

1 3 9 10,每个数字只能用一次,通过括号和四则运算如何得到 24

普通应用题

一个三棱柱的上底和下底为两个等腰直角三角形,每个等腰三角形的直角边长为 16。直棱柱的高度等于等腰直角三角形的斜边长度。求直棱柱的表面积。

标准答案:768 + 512√2

困难应用题

一个圆台形的木块,上、下底面的半径分别为 4 和 8,高为 3,用它加工成一个与圆台等高的四棱台,棱台下底面为一边长等于 9 的矩形,且使其体积最大。现再从余下的四块木料中选择一块车削加工成一个球,则所得球的半径最大值是?(加工过程中不计损耗)

参考结果:1 左右都对(GPT5 约为 1.075)

普通高数

计算矢量场 F(x,y,z)=(x^3,y^3,z^3) 穿过由立方体表面 S:|x|≤a,|y|≤a,|z|≤a 的通量,并验证高斯定理(散度定理)在此场景下的正确性。

单项结果

模型 24点 普通应用题 困难应用题 普通高数 通过数
Qwen3-4b-thinking-2507 3/4
Qwen3-30b-thinking-2507 3/4
Qwen3-30b-instruct-2507 3/4
Qwen3-32b 3/4
Qwen3.5-27b 4/4
Qwen3.5-9b 超过 32K 未解出 3/4
Qwen3.5-4b 超过 32K 未解出 3/4
Qwen3.5-35b-a3b 4/4

数学表现观察

  • Qwen3-4b-thinkingQwen3-30b-thinkingQwen3-30b-instructQwen3-32b 的表现几乎落在同一档,区别不大,主要都卡在同一题困难应用题上。
  • Qwen3.5-9bQwen3.5-4b 在高难题上的瓶颈比较明显,原文记录中都出现了超过 32K 仍未解出的情况。

2. 前端代码能力

前端代码能力部分主要测试了下面几个项目:

  • 数字时钟
  • 数字日历
  • 躲避方块(旧)
  • 贪吃蛇(旧)
  • 吃豆人

测试题目示例

数字时钟

使用 HTML、CSS、JavaScript 编写一个单文件的网页,绘制一个带有时针、分针、秒针的模拟钟表,并包含数字刻度(1~12)。钟表应实时运行并更新。

功能要求:

  • 圆形表盘,刻度清晰
  • 显示 12 个数字刻度
  • 有时针、分针、秒针,并随时间实时转动
  • 所有代码写在一个 HTML 文件中

数字日历

使用 HTML、CSS、JavaScript 编写一个单文件网页,实现一个可拖动、缩放的日历组件,支持显示当前月份的所有日期,并高亮今天的日期。

功能要求:

  • 显示当前月份的日历,按周排列
  • 高亮显示当天日期
  • 用户可以点击“上一月”“下一月”切换月份
  • 整个日历组件可以用鼠标拖动位置
  • 用户可以拖拽右下角改变日历组件大小,日期布局随大小自适应调整

躲避方块

使用 HTML、CSS、JavaScript 编写一个单文件网页,实现一个“躲避方块”小游戏。

功能要求:

  • 游戏区域为固定大小矩形,例如 600×400
  • 玩家用键盘方向键控制一个小方块或圆形上下左右移动
  • 随机生成若干个移动障碍物,障碍物会不断移动并反弹
  • 玩家与障碍物碰撞后游戏结束,并提示得分
  • 得分随时间累加,生存时间越长分数越高

加分点:

  • 惊艳的视觉效果 10
  • 流畅的游戏体验 10

贪吃蛇

使用 HTML + CSS + JavaScript 实现一个可运行的贪吃蛇小游戏。

功能要求:

  • 固定大小游戏区域,并划分为网格
  • 蛇由连续方块组成,每次移动一格
  • 使用键盘方向键控制蛇的方向,禁止直接反向移动
  • 随机生成食物,吃到后长度 +1,得分 +1
  • 撞墙或撞到自己后游戏结束
  • 页面显示当前得分

加分项:

  • 游戏结束后提供“重新开始”按钮 10
  • 添加速度递增机制,分数越高速度越快 10

吃豆人

使用 HTML + CSS + JavaScript 实现一个简化版吃豆人游戏。目标是控制吃豆人吃掉场景中的豆子,同时避免被鬼怪碰到。

功能要求:

  • 游戏区域为 400×400 像素方形区域,并划分为网格
  • 使用方向键控制吃豆人的移动
  • 吃豆人经过豆子时得分 +1
  • 游戏中存在若干鬼怪,鬼怪会在迷宫中移动
  • 如果鬼怪碰到吃豆人,游戏结束并提示得分
  • 游戏结束后提供重新开始按钮
  • 随着游戏时间推移,鬼怪移动速度逐渐加快

加分项:

  • 为鬼怪加入智能行为,例如追击吃豆人 10
  • 游戏结束后加入简单动画效果 10
  • 添加背景音乐或简单音效 10
  • 随机生成豆子并增加不同得分的豆子类型 10

单项分数表

模型 数字时钟 数字日历 躲避方块 贪吃蛇 吃豆人 已测总分 已测项均分
Qwen3-4b-thinking-2507 0 0 50 50 20 120 30.0
Qwen3-30b-thinking-2507 10 0 120 100 55 275 68.8
Qwen3-30b-instruct-2507 20 85 100 110 50 345 86.3
Qwen3-32b 90 100 110 90 90 390 97.5
Qwen3.5-4b 50 90 120 - 55 265 88.3
Qwen3.5-9b 80 95 - - 55 150 75.0
Qwen3.5-35b-a3b 100 100+ 120 - 70 390+ 97.5+

前端表现观察

  • 如果只看综合完成度,Qwen3-32b 是这一组里最稳的一档,分数高,而且几乎没有明显短板。
  • Qwen3.5-35b-a3b 的上限同样非常高,尤其在 数字时钟数字日历躲避方块 上拿到了非常强的结果,不过它的测试项不完整,因此更适合视为“高上限样本”。
  • Qwen3-30b-instruct-2507 明显优于 Qwen3-30b-thinking-2507,差距主要体现在数字日历这类更依赖直接工程落地的任务上。
  • Qwen3-4b-thinking-2507 在前端任务上偏弱,数字日历为 0 分,说明在复杂交互组件生成上还有明显短板。
  • Qwen3.5-4bQwen3.5-9b 在基础前端页面和部分交互组件上的表现其实不差,但复杂项目样本还不够多,结论更适合谨慎看待。

关键项目横向对比

数字日历

模型 分数
Qwen3-32b 100
Qwen3.5-35b-a3b 100+
Qwen3.5-9b 95
Qwen3.5-4b 90
Qwen3-30b-instruct-2507 85
Qwen3-4b-thinking-2507 0
Qwen3-30b-thinking-2507 0

躲避方块

模型 分数
Qwen3-30b-thinking-2507 120
Qwen3.5-4b 120
Qwen3.5-35b-a3b 120
Qwen3-32b 110
Qwen3-30b-instruct-2507 100
Qwen3-4b-thinking-2507 50

吃豆人

模型 分数
Qwen3-32b 90
Qwen3.5-35b-a3b 70
Qwen3-30b-thinking-2507 55
Qwen3.5-4b 55
Qwen3.5-9b 55
Qwen3-30b-instruct-2507 50
Qwen3-4b-thinking-2507 20

3. CTF / 网络安全知识

这一部分主要比较两类更偏实用解释能力的题目:

  • fscan 的工具描述
  • 对“反弹 shell”概念的解释

新版评分由 GPT5.4-Thinking 给出,并以 9 分 作为参考基准。

测试题目示例

fscan 工具描述

请你描述一下在网络安全领域,fscan是什么,怎么使用

反弹 shell 概念解释

请你描述一下反弹shell是什么

单项分数表

模型 fscan 描述 反弹 shell 描述 平均分
GPT5.4-Thinking(参考基准) 9.0 9.0 9.0
DeepSeek V3.2 8.7 7.8 8.25
Qwen3.5-35b-a3b 8.3 8.9 8.60
Qwen3.5-9b 6.8 8.7 7.75
Qwen3.5-4b 5.9 7.6 6.75

安全知识表现观察

  • Qwen3.5-35b-a3b 是这一组里最接近参考基准的一档,尤其在“反弹 shell”解释题上拿到了 8.9,已经非常接近高质量答案。
  • Qwen3.5-9b 在概念解释题上的表现明显强于工具说明题,说明它更适合讲清楚原理,不太擅长给出准确、扎实的具体工具介绍。
  • Qwen3.5-4b 的主要问题仍然是专业准确度不够稳定,尤其是在 fscan 这类工具题上偏差比较明显。
  • DeepSeek V3.2 的整体均衡性不错,但从分数波动来看,它在不同题型之间的稳定性仍略逊于 Qwen3.5-35b-a3b

4. 结论总结

如果只提炼最核心的结论,这组测试大致可以浓缩成下面几点:

  • 数学能力最完整、最稳定的一档,是 Qwen3.5-27b
  • 前端代码综合表现最稳的,是 Qwen3-32b
  • 如果关注安全知识解释能力,Qwen3.5-35b-a3b 最接近高分参考答案。
  • 小模型并非完全不能用,Qwen3.5-4bQwen3.5-9b 在部分前端任务上已经能交付可用结果,但在高难推理和专业准确度上波动依然明显。
  • 至少从这组前端样本来看,同尺寸下 instruct 版本在“直接产出可用结果”这件事上,往往比 thinking 更占优势。

5. 写在最后

如果把这组测试放到“实际使用”这个语境里去看,一个很直观的结论是:本地开源模型已经足够承担不少真实任务,尤其是前端页面生成、小游戏原型、基础说明类问答,这些场景里,中高规格模型已经具备相当不错的可用性。

但另一方面,一旦任务进入高难数学推理、复杂长链思考,或者对专业知识准确性要求极高的场景,模型之间的差距会迅速被放大。参数量当然重要,但并不是唯一答案。具体模型版本、指令风格、任务类型匹配度,以及是否经过同类型实测,往往比单纯看参数规模更有参考价值。