我用了两周DeepSeek R1,做了20组对比测试。结果发现:推理任务确实强,但某些场景还不如GPT-3.5。
一、测试背景
DeepSeek R1发布后,很多人说推理能力碾压GPT-4。我很好奇,真的这么强吗?
于是我做了20组对比测试,涵盖数学推理、逻辑分析、代码编写、创意写作4个维度。
二、测试结果
1. 数学推理(5题)
结论:DeepSeek R1在复杂计算上略强,但应用题反而不如GPT-4。
2. 代码编写(5题)
测试了Python、JavaScript、Go三种语言。
-
DeepSeek R1:代码能运行,但注释较少 -
GPT-4:代码更规范,注释详细
3. 创意写作(5题)
让两个模型写文案、故事、邮件。
我的感受:DeepSeek R1的中文表达更自然,GPT-4的逻辑更严谨。
三、我的判断
DeepSeek R1适合的场景
-
数学推理题 -
逻辑分析 -
中文写作 -
预算有限的用户(免费)
GPT-4适合的场景
-
代码编写 -
英文写作 -
复杂任务规划 -
需要稳定质量的场景
四、费用对比
-
DeepSeek R1:完全免费(API有免费额度) -
GPT-4:Plus会员20美元/月
如果你预算有限,DeepSeek R1完全够用。
五、我的建议
-
日常用DeepSeek R1,省钱 -
重要任务用GPT-4,更稳定 -
两个都注册,根据任务切换