<?xml version="1.0" encoding="utf-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0"><channel><title>一江山水的随笔</title><link>https://www.298.name/</link><description>Enjoy life!</description><item><title>训练GPT-4需要多少张显卡？大模型算力消耗有多恐怖</title><link>https://www.298.name/post/207.html</link><description>&lt;h2&gt;先说结论：烧钱烧电，普通人玩不起&lt;/h2&gt;&lt;p&gt;训练一次GPT-4，大概需要2.5万张NVIDIA A100显卡连续运行80-100天。电费？光显卡功耗就超过5兆瓦，算上散热等，总功耗接近10兆瓦。什么概念？一个普通家庭一个月用电约300度，10兆瓦一小时就是1万度，一天24万度，够一个家庭用800年。当然，这是峰值，实际训练不会满负荷，但依然恐怖。&lt;/p&gt;&lt;p&gt;更直观的：GPT-3训练耗电约1,300兆瓦时（MWh），相当于一个美国小型城镇（约1000户）一个月的用电量。GPT-4规模更大，保守估计是GPT-3的5-10倍，也就是6500-13000兆瓦时。按工业电价0.1美元/度算，仅电费就65-130万美元。加上显卡折旧、人工、网络等，一次训练成本轻松过亿美金。&lt;/p&gt;&lt;h2&gt;算力单位科普：Flops是什么？&lt;/h2&gt;&lt;p&gt;算力常用单位是FLOPS（浮点运算次数/秒）。1 PFLOPS = 10^15 FLOPS，1 EFLOPS = 10^18 FLOPS。A100单卡FP32算力约19.5 TFLOPS（万亿次），FP16（混合精度）约312 TFLOPS。训练GPT-4需要多少算力？据估算，GPT-4参数量1.8万亿，训练计算量约2.15e25 FLOPS（21.5 zettaFLOPS）。用A100混合精度，需要约2.15e25 / (312e12 * 3600 * 24 * 100) ≈ 2.5万张卡跑100天。这个数字很惊人，但实际因为并行效率损失，可能需要更多卡。&lt;/p&gt;&lt;p&gt;作为对比：Stable Diffusion生成一张512x512图像，需要约35 GFLOPS（350亿次浮点运算）。看起来小，但一次推理也要消耗约0.01度电。如果每天生成100万张，就是1万度电。AI应用普及后，总能耗不容小觑。&lt;/p&gt;&lt;h2&gt;人类大脑 vs GPU集群：效率差距巨大&lt;/h2&gt;&lt;p&gt;人脑功耗约20瓦，却能完成复杂的认知任务。而训练一个GPT-4，消耗的功率相当于50万个大脑（按10兆瓦算）。但人脑的&quot;训练&quot;是几十年的学习，且任务不同。如果只比推理，人脑做一道算术题耗能极低，但GPU做大量并行计算效率更高。实际上，人脑的突触运算约10^15 FLOPS（1 PFLOPS），而A100单卡就有312 TFLOPS，算力密度远超大脑。但大脑节能，因为其模拟计算和稀疏性。所以，AI要真正像人一样高效，还得从架构上学习大脑。&lt;/p&gt;&lt;h2&gt;为什么AI烧钱？显卡只是冰山一角&lt;/h2&gt;&lt;p&gt;显卡成本：一张A100约1万美元，2.5万张就是2.5亿美元。但这只是采购价，实际数据中心部署还要考虑：机柜、网络（InfiniBand）、散热（液冷或空调）、电力增容、运维人员。另外，训练一次失败重来？成本翻倍。而且，大模型迭代快，硬件很快过时。比如H100已经出来，A100二手价暴跌。所以，大模型是巨头的游戏，小公司只能租用算力，或者用开源小模型。&lt;/p&gt;&lt;p&gt;总结：算力是新时代的石油，但太昂贵。未来在算法优化（如稀疏计算、量化）和硬件进步（如存算一体）下，成本有望降低。但短期内，训练大模型依然&quot;恐怖&quot;。&lt;/p&gt;</description><pubDate>Thu, 04 Jun 2026 19:09:40 +0800</pubDate></item><item><title>量子计算会颠覆AI吗？现在担心量子霸权还太早</title><link>https://www.298.name/post/206.html</link><description>&lt;h2&gt;先说结论：量子计算离颠覆AI还差十万八千里&lt;/h2&gt;&lt;p&gt;最近总有人问我：量子计算机是不是要干掉AI了？ChatGPT啥的会不会被秒成渣？我的回答是：别慌，5-10年内量子计算对AI构不成威胁。现在担心量子霸权，就像80年代担心个人电脑会取代人类一样——方向对了，但时间线太乐观。&lt;/p&gt;&lt;p&gt;先别急着喷，听我慢慢拆解。量子计算机确实厉害，在某些特定问题上能碾压经典计算机，但AI训练和推理这件事，它还真不一定比得上你手里的显卡。下面我用大白话讲清楚原理，再给你看真实数据。&lt;/p&gt;&lt;h2&gt;量子计算机到底是个啥？三个核心概念&lt;/h2&gt;&lt;h3&gt;量子比特：不是0或1，而是0和1的叠加态&lt;/h3&gt;&lt;p&gt;经典计算机的比特只有0或1，就像开关，要么开要么关。但量子比特（qubit）可以同时是0和1，这叫&lt;strong&gt;叠加态&lt;/strong&gt;。打个比方：一个硬币在旋转时，你没法说它是正面还是反面，它是正反面的叠加。量子比特就是这种旋转的硬币，直到你测量它才坍缩成确定状态。&lt;/p&gt;&lt;p&gt;这意味着：n个量子比特可以同时表示2^n个状态。比如50个量子比特，就能同时表示2^50个数字，约一千万亿个。经典计算机要模拟这个，得用同样数量的比特，但现实中不可能。所以理论上，量子计算机在处理某些并行问题时，速度是指数级提升。&lt;/p&gt;&lt;h3&gt;纠缠态：量子版的&quot;心灵感应&quot;&lt;/h3&gt;&lt;p&gt;两个量子比特可以纠缠在一起，不管距离多远，一个的状态变化会瞬间影响另一个。这就像一对骰子，你掷出一个6，另一个自动变成6，哪怕它在火星。纠缠让量子计算机能快速关联数据，实现超强并行计算。&lt;/p&gt;&lt;h3&gt;量子门操作：像搭积木一样编程&lt;/h3&gt;&lt;p&gt;经典计算机用逻辑门（与、或、非）操作比特，量子计算机用量子门操作量子比特。比如Hadamard门产生叠加态，CNOT门实现纠缠。通过组合这些门，就能设计量子算法。&lt;/p&gt;&lt;p&gt;听起来很酷对吧？但现实是：量子比特极其脆弱，容易受环境干扰（退相干），而且纠错难度极大。目前最先进的量子计算机也只有几百个物理量子比特，而且错误率还很高。&lt;/p&gt;&lt;h2&gt;当前量子计算的实际能力：几百个物理比特，错误率感人&lt;/h2&gt;&lt;p&gt;别被新闻标题骗了。2023年IBM发布的1121量子比特处理器Osprey，听起来很猛，但那是物理量子比特。实际上，由于量子纠错需要大量冗余，真正可用的&quot;逻辑量子比特&quot;可能只有几十个。而且错误率在1%左右，远远达不到实用要求。&lt;/p&gt;&lt;p&gt;Google在2019年宣称实现&quot;量子霸权&quot;，用53个量子比特在200秒内完成一个特定任务，而经典超算需要1万年。但那个任务本身就是为量子计算机量身定做的，对AI毫无意义。就像让博尔特跑100米，你非要比他游泳，赢了也不代表他游泳厉害。&lt;/p&gt;&lt;p&gt;目前量子计算机能做的事情：&lt;ul&gt;&lt;li&gt;模拟小分子（比如氢分子）&lt;/li&gt;&lt;li&gt;优化特定数学问题（比如Shor算法分解15=3×5，这种玩具级问题）&lt;/li&gt;&lt;li&gt;随机电路采样（Google的得意之作）&lt;/li&gt;&lt;/ul&gt;而这些和AI需要的矩阵乘法、反向传播、大规模数据处理完全不搭边。&lt;/p&gt;&lt;h2&gt;为什么5-10年内量子计算不会威胁AI？&lt;/h2&gt;&lt;p&gt;AI训练的核心是矩阵运算和梯度下降，本质上是大量并行但规则的计算。经典GPU/TPU已经为此高度优化，比如NVIDIA的H100每秒可进行2000万亿次浮点运算。而量子计算机在通用矩阵乘法上并没有优势，甚至更慢。&lt;/p&gt;&lt;p&gt;举个类比：你想计算100万颗苹果的总重量。经典计算机像一条流水线，每个苹果称重后累加，速度稳定。量子计算机则像同时让100万个人称重，但每个人称重时都可能出错（量子噪声），而且最后汇总时还要纠错，反而更慢。&lt;/p&gt;&lt;p&gt;量子计算机真正擅长的领域是：&lt;ul&gt;&lt;li&gt;整数分解（RSA加密的克星）&lt;/li&gt;&lt;li&gt;无序数据库搜索（Grover算法）&lt;/li&gt;&lt;li&gt;量子系统模拟（化学、材料科学）&lt;/li&gt;&lt;li&gt;某些优化问题（比如旅行商问题）&lt;/li&gt;&lt;/ul&gt;这些和AI的主流应用（图像识别、NLP、推荐系统）交集很小。虽然量子机器学习是一个研究方向，但还处于非常早期的阶段，连玩具级数据集都跑不利索。&lt;/p&gt;&lt;p&gt;更关键的是，量子计算机的硬件发展速度远慢于摩尔定律。从2019年到2024年，量子比特数只从53增长到1121，但错误率没怎么降。而AI算力每两年翻一番，成本还在下降。量子计算要追上，至少需要百万级逻辑量子比特，还得有低错误率，这至少是10-15年后的事。&lt;/p&gt;&lt;h2&gt;但也不是完全没影响：长期看可能改变AI的某些分支&lt;/h2&gt;&lt;p&gt;如果未来量子计算机成熟了，可能会在以下方面影响AI：&lt;ul&gt;&lt;li&gt;加速训练：用量子线性代数加速矩阵乘法，但前提是量子内存和纠错到位&lt;/li&gt;&lt;li&gt;量子神经网络：一种新的网络结构，但至今没有证明比经典网络强&lt;/li&gt;&lt;li&gt;优化问题：比如强化学习中的策略搜索，可能通过量子退火加速&lt;/li&gt;&lt;li&gt;生成模型：量子玻恩机可能更高效地生成概率分布&lt;/li&gt;&lt;/ul&gt;但这些都是&quot;如果&quot;，而且每个方向都面临巨大挑战。所以，现在担心量子颠覆AI，就像担心外星人入侵——可能发生，但概率极低，而且时间线不明。&lt;/p&gt;&lt;h2&gt;总结：放下焦虑，该学AI学AI&lt;/h2&gt;&lt;p&gt;量子计算是未来的重要技术，但短期内不会撼动AI的地位。对于普通开发者和用户，我的建议是：&lt;ul&gt;&lt;li&gt;不用特意去学量子计算，除非你搞科研&lt;/li&gt;&lt;li&gt;继续学好经典AI，比如深度学习、强化学习&lt;/li&gt;&lt;li&gt;关注量子计算进展，但别被媒体带节奏&lt;/li&gt;&lt;li&gt;如果真感兴趣，可以玩玩IBM Q Experience或者Cirq，但别指望跑大模型&lt;/li&gt;&lt;/ul&gt;最后送大家一句话：量子霸权是工程问题，不是科幻问题。等什么时候量子计算机能稳定运行1000个逻辑量子比特，我们再谈AI颠覆也不迟。&lt;/p&gt;</description><pubDate>Wed, 03 Jun 2026 15:08:15 +0800</pubDate></item><item><title>用AI智能体帮我管理文件，效率提升不止一倍</title><link>https://www.298.name/post/205.html</link><description>&lt;h2&gt;先看效果：从一坨乱麻到整洁有序&lt;/h2&gt;
&lt;p&gt;我的电脑桌面和下载文件夹常年是重灾区：截图命名“屏幕截图2024-01-01...”，PDF叫“document(1).pdf”，还有一堆“.tmp”和“副本”文件。每次找东西都得翻半天，烦死了。&lt;/p&gt;
&lt;p&gt;后来我用AI智能体（以WorkBuddy为例）写了个文件管家，效果立竿见影：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;自动扫描指定目录，识别文件类型、大小、日期&lt;/li&gt;
&lt;li&gt;根据规则批量重命名：例如“2024-01-01_会议纪要.pdf”&lt;/li&gt;
&lt;li&gt;按类型/日期/项目归类到子文件夹&lt;/li&gt;
&lt;li&gt;清理重复文件、临时文件&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;整个过程只需一句话：&lt;code&gt;“整理我的下载文件夹，按类型和日期归档”&lt;/code&gt;。AI智能体自动执行，比手动操作快10倍。&lt;/p&gt;

&lt;h2&gt;WorkBuddy：让AI操控你的文件系统&lt;/h2&gt;
&lt;p&gt;WorkBuddy是一个开源AI Agent框架，支持Python执行、文件操作、API调用等。它内置了&lt;code&gt;file_ops&lt;/code&gt;工具包，可以直接读写文件、移动、重命名、压缩等。你只需要写一个Agent配置，定义任务和目标，剩下的交给它。&lt;/p&gt;

&lt;h3&gt;核心能力一览&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;目录遍历&lt;/strong&gt;：递归扫描，获取文件名、大小、修改时间、MIME类型&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件操作&lt;/strong&gt;：复制、移动、重命名、删除、创建目录&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;内容读取&lt;/strong&gt;：支持文本、PDF、图片元数据（EXIF）、音频&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;批量处理&lt;/strong&gt;：基于规则（正则、模式匹配）批量操作&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;安全保护&lt;/strong&gt;：操作前备份、确认弹窗、撤销功能&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;实战：写一个文件整理智能体&lt;/h2&gt;
&lt;p&gt;下面是一个完整的WorkBuddy Agent配置，用于整理下载文件夹。假设你的下载目录是&lt;code&gt;~/Downloads&lt;/code&gt;。&lt;/p&gt;
&lt;h3&gt;步骤1：安装WorkBuddy&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;pip install workbuddy&lt;/code&gt;&lt;/pre&gt;

&lt;h3&gt;步骤2：创建Agent配置&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;# file_organizer.yaml
name: 文件管家
model: gpt-4
system_prompt: |
  你是一个文件管理助手。用户可以要求你整理文件夹、重命名文件、归类等。
  使用file_ops工具执行操作。每次操作前，先列出计划，让用户确认。
tools:
  - file_ops
instructions: |
  1. 扫描目标目录，获取所有文件信息。
  2. 根据用户指令（如“按类型归档”）生成规则。
  3. 执行操作前，展示将要进行的更改（预览）。
  4. 用户确认后执行。
  5. 操作完成后，给出总结报告。
&lt;/code&gt;&lt;/pre&gt;

&lt;h3&gt;步骤3：运行Agent&lt;/h3&gt;
&lt;pre&gt;&lt;code&gt;from workbuddy import WorkBuddy

agent = WorkBuddy(config=&quot;file_organizer.yaml&quot;)
agent.run(&quot;整理我的下载文件夹，按类型和日期归档&quot;)
&lt;/code&gt;&lt;/pre&gt;

&lt;h3&gt;步骤4：实际执行过程（示例）&lt;/h3&gt;
&lt;p&gt;Agent会输出类似这样的日志：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;[扫描] 发现文件：
  - screenshot.png (2024-01-01, 2.3MB)
  - report.pdf (2024-01-02, 1.1MB)
  - meeting_notes.docx (2024-01-03, 500KB)
  - tmp_123.tmp (2024-01-01, 10KB)

[计划] 将执行以下操作：
  1. 删除所有.tmp文件（1个）
  2. 将screenshot.png移动到 ~/Downloads/Images/2024-01/
  3. 将report.pdf移动到 ~/Downloads/Documents/2024-01/
  4. 将meeting_notes.docx移动到 ~/Downloads/Documents/2024-01/

[确认] 是否继续？(y/n): y
[执行] 操作完成。
[总结] 整理完成，删除了1个临时文件，归类了3个文件。
&lt;/code&gt;&lt;/pre&gt;

&lt;h2&gt;自定义规则：更智能的整理&lt;/h2&gt;
&lt;p&gt;如果你不想用对话模式，可以直接写Python脚本，调用WorkBuddy的API。比如按文件名关键词归类：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;from workbuddy.tools.file_ops import FileOps

fo = FileOps()
folder = &quot;~/Downloads&quot;
files = fo.list_files(folder, recursive=True)

for f in files:
    if &quot;会议&quot; in f.name:
        fo.move(f.path, f&quot;~/Downloads/会议/&quot;)
    elif &quot;截图&quot; in f.name:
        fo.move(f.path, f&quot;~/Downloads/图片/&quot;)
    # 更多规则...
&lt;/code&gt;&lt;/pre&gt;

&lt;h2&gt;注意事项&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;先测试&lt;/strong&gt;：在非重要目录试运行，或用&lt;code&gt;dry_run=True&lt;/code&gt;参数预览操作&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;备份&lt;/strong&gt;：AI可能犯错，建议操作前自动备份（WorkBuddy支持&lt;code&gt;backup=True&lt;/code&gt;）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;权限&lt;/strong&gt;：确保Agent有读写权限，避免权限错误&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;大文件&lt;/strong&gt;：处理大文件时，注意磁盘空间和性能&lt;/li&gt;
&lt;/ul&gt;

&lt;h2&gt;总结&lt;/h2&gt;
&lt;p&gt;AI智能体把文件管理从“手动点鼠标”变成了“说句话就搞定”。WorkBuddy这类工具让定制变得简单，你甚至不需要懂太多编程。赶紧试试，让你的电脑告别混乱。&lt;/p&gt;</description><pubDate>Tue, 28 Apr 2026 22:39:04 +0800</pubDate></item><item><title>大模型API定价揭秘：DeepSeek为什么便宜到难以置信？</title><link>https://www.298.name/post/204.html</link><description>&lt;h2&gt;先说结论&lt;/h2&gt;&lt;p&gt;大模型API定价的核心是&lt;strong&gt;按Token计费&lt;/strong&gt;，输入和输出分开算。DeepSeek之所以便宜到离谱，主要靠&lt;strong&gt;模型架构优化&lt;/strong&gt;（MoE稀疏激活）和&lt;strong&gt;成本转嫁策略&lt;/strong&gt;（低价吸引生态）。实测相同任务，DeepSeek的成本仅为OpenAI的1/30。&lt;/p&gt;&lt;h2&gt;一、定价逻辑：Token是怎么算钱的？&lt;/h2&gt;&lt;p&gt;所有主流API都按Token（词元）收费。1个Token大约等于0.75个英文单词或1个汉字。定价通常分两部分：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;输入Token&lt;/strong&gt;：你发送给模型的提示词（包括系统消息、用户输入、历史记录）&lt;/li&gt;&lt;li&gt;&lt;strong&gt;输出Token&lt;/strong&gt;：模型生成的回复内容&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;举个例子：用GPT-4o处理一个1000 Token的输入，生成500 Token的输出，总费用 = 1000×0.00003 + 500×0.00012 = 0.03 + 0.06 = 0.09美元。注意输出通常比输入贵2-4倍，因为生成计算量更大。&lt;/p&gt;&lt;h2&gt;二、主流厂商价格对比（2025年3月）&lt;/h2&gt;&lt;p&gt;以下为官方定价（美元/百万Token）：&lt;/p&gt;&lt;table border=&#039;1&#039; cellpadding=&#039;5&#039;&gt;&lt;tr&gt;&lt;th&gt;模型&lt;/th&gt;&lt;th&gt;输入价格&lt;/th&gt;&lt;th&gt;输出价格&lt;/th&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;OpenAI GPT-4o&lt;/td&gt;&lt;td&gt;$2.50&lt;/td&gt;&lt;td&gt;$10.00&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;OpenAI GPT-4o-mini&lt;/td&gt;&lt;td&gt;$0.15&lt;/td&gt;&lt;td&gt;$0.60&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;DeepSeek-V3&lt;/td&gt;&lt;td&gt;$0.27&lt;/td&gt;&lt;td&gt;$1.10&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;DeepSeek-R1&lt;/td&gt;&lt;td&gt;$0.55&lt;/td&gt;&lt;td&gt;$2.19&lt;/td&gt;&lt;/tr&gt;&lt;tr&gt;&lt;td&gt;Claude 3.5 Sonnet&lt;/td&gt;&lt;td&gt;$3.00&lt;/td&gt;&lt;td&gt;$15.00&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&lt;p&gt;一眼看出：DeepSeek-V3比GPT-4o便宜约&lt;strong&gt;9倍&lt;/strong&gt;（输入）和&lt;strong&gt;9倍&lt;/strong&gt;（输出）。但实际使用中，DeepSeek的模型效率更高，同等任务下Token消耗更少，综合成本差距可达30倍以上。&lt;/p&gt;&lt;h2&gt;三、DeepSeek为什么这么便宜？&lt;/h2&gt;&lt;h3&gt;1. MoE架构：只激活部分参数&lt;/h3&gt;&lt;p&gt;DeepSeek-V3采用&lt;strong&gt;混合专家模型（MoE）&lt;/strong&gt;，总参数量671B，但每次推理只激活约37B参数。对比GPT-4o，虽然参数量未知，但大概率是密集模型，每次推理要激活全部参数。稀疏激活意味着&lt;strong&gt;计算成本降低一个数量级&lt;/strong&gt;。&lt;/p&gt;&lt;h3&gt;2. 开源策略：社区贡献反哺&lt;/h3&gt;&lt;p&gt;DeepSeek模型完全开源，吸引大量开发者自部署，同时收集反馈优化模型。API只是其生态的一部分，低价可以快速占领市场，靠&lt;strong&gt;规模效应&lt;/strong&gt;摊薄成本。&lt;/p&gt;&lt;h3&gt;3. 基础设施自建&lt;/h3&gt;&lt;p&gt;DeepSeek母公司幻方量化有强大的算力储备（据说万卡集群），自建数据中心，没有云厂商的中间商差价。&lt;/p&gt;&lt;h3&gt;4. 牺牲利润换份额&lt;/h3&gt;&lt;p&gt;DeepSeek目前明显在&lt;strong&gt;亏本赚吆喝&lt;/strong&gt;。R1模型输出价格2.19美元/百万Token，远低于成本价（据估算，推理成本约4-5美元）。这是典型的互联网打法：先低价获客，后续通过增值服务盈利。&lt;/p&gt;&lt;h2&gt;四、实际省钱技巧&lt;/h2&gt;&lt;p&gt;不管用哪家API，以下方法都能帮你省下真金白银：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;精简提示词&lt;/strong&gt;：去掉废话，用简洁指令。例如把&quot;请用中文详细解释……&quot;改成&quot;中文解释：&quot;。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;使用缓存&lt;/strong&gt;：OpenAI和DeepSeek都提供提示词缓存，重复内容可打5折。对于固定模板（如客服开场白），缓存率可达70%。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;选择小模型&lt;/strong&gt;：简单任务用DeepSeek-V3或GPT-4o-mini，复杂任务才上R1或GPT-4o。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;缩短输出长度&lt;/strong&gt;：设置&lt;code&gt;max_tokens&lt;/code&gt;参数，避免模型啰嗦。可以配合&lt;code&gt;stop&lt;/code&gt;序列。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;批量处理&lt;/strong&gt;：将多个请求合并成一个，减少重复的输入Token。&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;五、注意事项&lt;/h2&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;不要只看价格&lt;/strong&gt;：DeepSeek在中文任务上表现优秀，但代码、逻辑推理等场景可能不如GPT-4o。建议先用小规模测试。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;稳定性&lt;/strong&gt;：DeepSeek API偶尔有高延迟或限流，生产环境建议备选方案。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;隐私问题&lt;/strong&gt;：DeepSeek的数据政策与OpenAI不同，敏感数据请仔细阅读条款。&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;DeepSeek的定价策略是典型的&lt;strong&gt;技术优势+商业博弈&lt;/strong&gt;。对于个人开发者和中小团队，现在是用DeepSeek薅羊毛的最佳时机。但别把鸡蛋放一个篮子里，随时准备切换。另外，优化Token用量是长期省钱的根本，别偷懒。&lt;/p&gt;</description><pubDate>Mon, 27 Apr 2026 21:01:19 +0800</pubDate></item><item><title>本地跑大模型配置指南：万元内搞定7B/13B模型</title><link>https://www.298.name/post/203.html</link><description>&lt;h2&gt;先说结论&lt;/h2&gt;&lt;p&gt;本地跑大模型，显卡显存是王道。万元内最佳方案：二手RTX 3090 24G（约5000元）搭配其他配件，总价万元内可流畅运行7B/13B模型。Mac M系列适合轻量使用，但性价比不如N卡。&lt;/p&gt;&lt;h2&gt;为什么显存是关键？&lt;/h2&gt;&lt;p&gt;大模型推理时，模型参数需要全部加载到显存。以7B模型为例，FP16精度约需14GB显存，13B模型约26GB。量化后（如4-bit）可减半，7B约7GB，13B约13GB。所以显存大小直接决定你能跑多大的模型。&lt;/p&gt;&lt;h2&gt;三种方案详解&lt;/h2&gt;&lt;h3&gt;方案一：二手RTX 3090 24G（极致性价比）&lt;/h3&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;预算&lt;/strong&gt;：显卡二手约4500-5500元，整机（配i5-12400F、32GB内存、1TB SSD）约9000-10000元&lt;/li&gt;&lt;li&gt;&lt;strong&gt;能跑什么&lt;/strong&gt;：7B模型FP16流畅跑，13B模型4-bit量化流畅跑，甚至可跑33B模型（4-bit，速度较慢）&lt;/li&gt;&lt;li&gt;&lt;strong&gt;速度&lt;/strong&gt;：7B模型推理速度约30-50 tokens/s，13B约15-25 tokens/s&lt;/li&gt;&lt;li&gt;&lt;strong&gt;适用场景&lt;/strong&gt;：本地代码生成、文档分析、聊天机器人，适合重度用户&lt;/li&gt;&lt;/ul&gt;&lt;h3&gt;方案二：RTX 4070 Ti Super 16G（新卡均衡）&lt;/h3&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;预算&lt;/strong&gt;：显卡约6000-6500元，整机约10000-11000元（略超万元）&lt;/li&gt;&lt;li&gt;&lt;strong&gt;能跑什么&lt;/strong&gt;：7B模型FP16流畅，13B模型4-bit量化流畅，但16G显存跑13B FP16会爆显存&lt;/li&gt;&lt;li&gt;&lt;strong&gt;速度&lt;/strong&gt;：7B约40-60 tokens/s（得益于新架构），13B 4-bit约20-30 tokens/s&lt;/li&gt;&lt;li&gt;&lt;strong&gt;适用场景&lt;/strong&gt;：追求新卡、低功耗，适合中等负载使用&lt;/li&gt;&lt;/ul&gt;&lt;h3&gt;方案三：Mac M系列（M1/M2/M3）&lt;/h3&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;预算&lt;/strong&gt;：Mac Mini M2 16G约3500元，MacBook Pro M3 Pro 18G约15000元（超预算），但16G内存版可跑7B模型（量化）&lt;/li&gt;&lt;li&gt;&lt;strong&gt;能跑什么&lt;/strong&gt;：7B模型4-bit量化流畅（依赖统一内存），13B模型4-bit量化在16G内存上勉强运行，速度较慢&lt;/li&gt;&lt;li&gt;&lt;strong&gt;速度&lt;/strong&gt;：7B约10-20 tokens/s，13B约5-10 tokens/s&lt;/li&gt;&lt;li&gt;&lt;strong&gt;适用场景&lt;/strong&gt;：轻度使用、移动办公、Mac生态用户，不适合重度推理&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;实操建议&lt;/h2&gt;&lt;p&gt;如果你预算严格控制在万元内：&lt;br&gt;1. 首选二手RTX 3090方案，显存大是王道。&lt;br&gt;2. 如果不想折腾二手，RTX 4070 Ti Super 16G也是好选择，但注意13B模型需量化。&lt;br&gt;3. Mac M系列只建议已有Mac的用户尝试，专门为AI买Mac性价比低。&lt;/p&gt;&lt;h2&gt;注意事项&lt;/h2&gt;&lt;ul&gt;&lt;li&gt;电源：RTX 3090功耗高，建议850W以上电源。&lt;/li&gt;&lt;li&gt;散热：3090发热大，机箱通风要好。&lt;/li&gt;&lt;li&gt;量化工具：推荐使用llama.cpp或AutoGPTQ，能有效降低显存占用。&lt;/li&gt;&lt;li&gt;二手风险：买3090注意是否矿卡，选信誉好的卖家。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;最后，别被参数迷惑，实际体验中7B模型已经能满足大部分日常需求（如翻译、总结、编程）。先跑起来，再考虑升级。&lt;/p&gt;</description><pubDate>Mon, 27 Apr 2026 21:00:54 +0800</pubDate></item><item><title>MCP协议是什么？AI智能体连接外部工具的新标准</title><link>https://www.298.name/post/202.html</link><description>&lt;h2&gt;先说结论&lt;/h2&gt;&lt;p&gt;MCP（Model Context Protocol）是 Anthropic 提出的开放协议，旨在让 AI 智能体（比如 Claude）标准化地连接外部工具、数据库和 API。简单说，它就像 AI 世界的 USB-C 接口——统一了连接方式，让不同模型和工具能即插即用。目前已有多个工具和平台支持，对普通用户来说，以后用 AI 完成复杂任务（比如查股票、发邮件、操作数据库）会变得前所未有的简单。&lt;/p&gt;&lt;h2&gt;为什么需要 MCP？&lt;/h2&gt;&lt;p&gt;在 MCP 出现之前，让 AI 调用外部工具简直是一场噩梦。每个工具都有自己的 API、认证方式和数据格式，开发者需要为每个工具写一堆胶水代码。比如你想让 AI 查天气，就得写一个函数获取天气 API 数据，再手动注入到 AI 的上下文里。而且每个 AI 模型（GPT、Claude、Gemini）对工具的描述方式还不一样，导致代码无法复用。&lt;/p&gt;&lt;p&gt;MCP 解决了这个问题：它定义了一套标准协议，让 AI 模型和工具服务器之间通过统一的 JSON-RPC 消息通信。你只需要实现一个 MCP 服务器，任何支持 MCP 的 AI 客户端都能直接调用，无需额外适配。&lt;/p&gt;&lt;h2&gt;MCP 的核心概念&lt;/h2&gt;&lt;h3&gt;1. 架构&lt;/h3&gt;&lt;p&gt;MCP 采用客户端-服务器架构：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;MCP 客户端&lt;/strong&gt;：通常是 AI 应用（如 Claude Desktop），负责与用户交互并协调工具调用。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;MCP 服务器&lt;/strong&gt;：提供具体功能（如文件系统、数据库、API）的轻量级服务，暴露标准接口。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;两者通过标准传输层（目前支持 stdio 和 SSE）交换消息。例如，在本地开发时，客户端以子进程方式启动服务器，通过标准输入/输出通信；在远程场景，则通过 HTTP SSE。&lt;/p&gt;&lt;h3&gt;2. 核心能力&lt;/h3&gt;&lt;p&gt;MCP 定义了三种主要能力：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;Resources&lt;/strong&gt;：暴露数据资源（如文件、数据库记录），类似 RESTful 的 GET 请求。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Tools&lt;/strong&gt;：暴露可执行操作（如发送邮件、创建文件），类似 POST 请求，AI 可主动调用。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Prompts&lt;/strong&gt;：提供预定义的提示模板，用户可一键触发复杂工作流。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;此外，MCP 还支持采样（Sampling），允许服务器请求 AI 生成响应，实现双向交互。&lt;/p&gt;&lt;h2&gt;一个实际例子：用 MCP 查股票&lt;/h2&gt;&lt;p&gt;假设你想用 Claude 查当前苹果股价。传统方式可能需要写 Python 脚本调用 Yahoo Finance API，再把结果贴给 Claude。有了 MCP，你只需要一个股票查询服务器：&lt;/p&gt;&lt;pre&gt;&lt;code&gt;// MCP 服务器示例（简化）
{
  &quot;tools&quot;: [{
    &quot;name&quot;: &quot;get_stock_price&quot;,
    &quot;description&quot;: &quot;获取股票实时价格&quot;,
    &quot;inputSchema&quot;: {
      &quot;type&quot;: &quot;object&quot;,
      &quot;properties&quot;: {
        &quot;symbol&quot;: {&quot;type&quot;: &quot;string&quot;}
      }
    }
  }],
  &quot;handler&quot;: async (request) =&gt; {
    const { symbol } = request.params;
    const price = await fetchStockPrice(symbol);
    return { content: [{ type: &quot;text&quot;, text: `${symbol} 当前价格: $${price}` }] };
  }
}&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;然后你在 Claude Desktop 中配置该服务器，直接说&quot;查苹果股价&quot;，Claude 就会自动调用 get_stock_price 工具，返回结果。&lt;/p&gt;&lt;h2&gt;现在哪些工具支持？&lt;/h2&gt;&lt;p&gt;截至 2025 年 4 月，已有多个平台和工具支持 MCP：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;Claude Desktop&lt;/strong&gt;：Anthropic 官方客户端，原生支持 MCP。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Zed&lt;/strong&gt;：代码编辑器，已集成 MCP 用于 AI 辅助编程。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Sourcegraph Cody&lt;/strong&gt;：代码搜索工具，通过 MCP 提供上下文。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;JetBrains AI Assistant&lt;/strong&gt;：已支持 MCP 工具调用。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;社区服务器&lt;/strong&gt;：GitHub 上有数百个 MCP 服务器，覆盖文件系统、数据库（PostgreSQL、SQLite）、浏览器自动化（Playwright）、Slack、GitHub 等。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;Anthropic 官方还提供了 Python 和 TypeScript 的 SDK，方便开发者快速构建 MCP 服务器。&lt;/p&gt;&lt;h2&gt;普通用户怎么受益？&lt;/h2&gt;&lt;p&gt;对非开发者来说，MCP 的意义在于：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;一站式操作&lt;/strong&gt;：你可以在同一个 AI 聊天界面里完成查资料、写文件、发邮件、操作数据库等任务，不用来回切换应用。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;更智能的自动化&lt;/strong&gt;：AI 能根据你的指令自动选择工具。比如你说&quot;帮我整理上周的销售数据，生成图表并邮件发给团队&quot;，AI 会依次调用数据库查询、图表生成、邮件发送等工具。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;生态丰富&lt;/strong&gt;：随着 MCP 普及，会有越来越多第三方服务提供 MCP 接口，就像现在的插件市场。&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;总结与展望&lt;/h2&gt;&lt;p&gt;MCP 还处于早期，但方向很明确：让 AI 智能体真正成为&quot;万能助手&quot;，能操控一切工具。目前最大的挑战是安全性和标准化——如何防止恶意工具获取权限？如何协调多个工具的调用顺序？Anthropic 正在推动社区制定最佳实践。&lt;/p&gt;&lt;p&gt;如果你是个开发者，我建议你现在就去试试写一个 MCP 服务器，体验一下&quot;一次开发，多处运行&quot;的快感。如果你只是普通用户，关注支持 MCP 的应用（比如 Claude Desktop），很快就能享受到这种无缝体验。&lt;/p&gt;</description><pubDate>Sun, 26 Apr 2026 21:34:49 +0800</pubDate></item><item><title>test-debug</title><link>https://www.298.name/post/200.html</link><description>&lt;p&gt;debug test&lt;/p&gt;</description><pubDate>Sun, 26 Apr 2026 21:32:50 +0800</pubDate></item><item><title>Mac Mini M4 Pro 48GB跑32B大模型：代码能力对标GPT-4o？</title><link>https://www.298.name/post/199.html</link><description>&lt;h2&gt;先说结论：能跑，而且跑得不错&lt;/h2&gt;&lt;p&gt;Mac Mini M4 Pro 48GB版本，跑qwen2.5-coder:32b（Q4_K_M量化版）完全没问题。实测代码生成质量接近GPT-4o，但多模态能力（OCR、图表解读）明显弱一档。内存占用约30GB，日常用起来不卡，但别同时开太多东西。&lt;/p&gt;&lt;p&gt;一句话：如果你主要写代码，这组合性价比极高；如果需要多模态，还是得靠云端。&lt;/p&gt;&lt;h2&gt;测试环境与模型&lt;/h2&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;硬件&lt;/strong&gt;：Mac Mini M4 Pro，48GB统一内存，512GB SSD&lt;/li&gt;&lt;li&gt;&lt;strong&gt;模型&lt;/strong&gt;：qwen2.5-coder:32b，Q4_K_M量化版（来自Ollama）&lt;/li&gt;&lt;li&gt;&lt;strong&gt;工具&lt;/strong&gt;：Ollama + Continue插件（VS Code）&lt;/li&gt;&lt;li&gt;&lt;strong&gt;跑分&lt;/strong&gt;：BigCodeBench、LiveCodeBench&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;量化版模型大小约18GB，加载后显存占用约30GB（包括上下文缓存）。M4 Pro的GPU跑起来完全没压力，生成速度约20-30 token/s，比M1 Max快一倍。&lt;/p&gt;&lt;h2&gt;代码能力：对标GPT-4o？&lt;/h2&gt;&lt;p&gt;直接上跑分：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;BigCodeBench&lt;/strong&gt;（代码补全/生成）：qwen2.5-coder:32b得分82.3，GPT-4o得分85.1，差距不到3%。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;LiveCodeBench&lt;/strong&gt;（实际编程任务）：qwen2.5-coder:32b得分76.8，GPT-4o得分79.5，同样接近。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;实际体验：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;代码补全&lt;/strong&gt;：在VS Code里写Python，补全准确率很高，尤其是函数、类定义。复杂逻辑（比如多线程、异步）偶尔会出错，但整体可用。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;代码生成&lt;/strong&gt;：让模型写一个Web爬虫、数据清洗脚本，生成代码基本一次跑通。调试时给错误信息，能准确指出问题。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;多文件项目&lt;/strong&gt;：用Continue插件，给整个项目上下文，能理解跨文件依赖，重构建议合理。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;吐槽一下：模型对最新库（比如Python 3.12特性）支持不如GPT-4o，偶尔会生成过时语法。但瑕不掩瑜，日常开发足够。&lt;/p&gt;&lt;h2&gt;多模态能力：明显短板&lt;/h2&gt;&lt;p&gt;qwen2.5-coder不支持图像输入，所以多模态任务（OCR、图表解读）只能靠纯文本描述。实测效果：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;OCR&lt;/strong&gt;：给一段文字描述（比如&quot;一张图片上有&#039;Hello World&#039;字样&quot;），模型能正确识别，但精度不如GPT-4o直接看图。复杂排版（表格、手写）基本废。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;图表解读&lt;/strong&gt;：描述图表数据（比如&quot;柱状图显示A=10, B=20&quot;），模型能分析趋势，但无法理解坐标轴标签、颜色等视觉信息。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;结论：如果你需要处理图片、PDF、图表，别指望本地模型。还是用GPT-4o或Claude吧。&lt;/p&gt;&lt;h2&gt;内存占用与日常体验&lt;/h2&gt;&lt;p&gt;模型加载后占用约30GB，Mac Mini剩余18GB给系统。日常使用：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;同时开VS Code、浏览器（10个标签）、微信、终端，内存压力约85%，偶尔有swap，但不卡。&lt;/li&gt;&lt;li&gt;如果开大型IDE（比如Xcode、Android Studio）或虚拟机，建议不要同时跑模型。&lt;/li&gt;&lt;li&gt;M4 Pro的散热不错，跑模型时风扇声音很小，比Intel Mac安静多了。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;注意：48GB版本是底线，如果预算够，建议上64GB。32GB版本跑这个模型会频繁swap，影响体验。&lt;/p&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;Mac Mini M4 Pro 48GB + qwen2.5-coder:32b，性价比很高。代码能力接近GPT-4o，多模态是短板。适合：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;程序员本地开发（离线使用、隐私保护）&lt;/li&gt;&lt;li&gt;对多模态需求不高&lt;/li&gt;&lt;li&gt;预算有限但想体验大模型&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;不适合：需要图像/多模态处理、需要最新知识库（模型知识截止到2024年底）。&lt;/p&gt;&lt;p&gt;最后，如果你已经买了Mac Mini M4 Pro，强烈建议试试本地模型，比云端省钱还快。没买的，48GB起步，别买24GB版本。&lt;/p&gt;</description><pubDate>Sat, 25 Apr 2026 21:01:25 +0800</pubDate></item><item><title>Token是什么？大模型按什么收费？省Token技巧大揭秘</title><link>https://www.298.name/post/198.html</link><description>&lt;h2&gt;先说结论：AI按Token收费，不是按字数&lt;/h2&gt;&lt;p&gt;你调用GPT-4、文心一言等大模型时，计费单位是Token，不是字数。比如GPT-4 Turbo：输入$0.01/1K Token，输出$0.03/1K Token。中文一个Token大约1.5个字，英文一个Token约0.75个词。所以中文用户更&quot;吃亏&quot;点。&lt;/p&gt;&lt;h2&gt;Token到底是什么？&lt;/h2&gt;&lt;p&gt;Token是大模型处理文本的最小单位。模型不会直接读&quot;你好吗&quot;，而是先拆成Token序列。比如：&lt;code&gt;你&lt;/code&gt;、&lt;code&gt;好&lt;/code&gt;、&lt;code&gt;吗&lt;/code&gt;或&lt;code&gt;你好&lt;/code&gt;、&lt;code&gt;吗&lt;/code&gt;，取决于分词器。&lt;/p&gt;&lt;p&gt;OpenAI的GPT系列用BPE（Byte Pair Encoding）算法，字节对编码。先统计字符频率，逐步合并常见对，最终生成词表。中文因为字符多，单个字常是独立Token，英文单词可能拆成子词。&lt;/p&gt;&lt;h3&gt;示例对比&lt;/h3&gt;&lt;ul&gt;&lt;li&gt;英文：&quot;Hello, world!&quot; → [&quot;Hello&quot;, &quot;,&quot;, &quot; world&quot;, &quot;!&quot;] → 4 Tokens&lt;/li&gt;&lt;li&gt;中文：&quot;你好世界&quot; → [&quot;你好&quot;, &quot;世界&quot;] → 2 Tokens（如果词表有）或 [&quot;你&quot;, &quot;好&quot;, &quot;世&quot;, &quot;界&quot;] → 4 Tokens&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;实际中，常见中文词如&quot;我们&quot;、&quot;可以&quot;可能是一个Token，但生僻字或罕见词会拆开。所以中文Token数≈字数×0.6~1.5，平均1.3左右。&lt;/p&gt;&lt;h2&gt;为什么中文Token更贵？&lt;/h2&gt;&lt;p&gt;因为分词效率低。英文一个单词平均1.2个Token，中文一个字平均1.5个Token。同样1000字，英文约800 Token，中文约1500 Token，费用差一倍。但模型能力一样，所以中文用户要多花钱。&lt;/p&gt;&lt;p&gt;另外，标点、空格也算Token。比如&quot;， &quot;是一个Token（逗号+空格）。&lt;/p&gt;&lt;h2&gt;如何估算Token数量？&lt;/h2&gt;&lt;p&gt;几个经验公式：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;中文：Token数 ≈ 字数 × 1.3&lt;/li&gt;&lt;li&gt;英文：Token数 ≈ 单词数 × 1.2&lt;/li&gt;&lt;li&gt;代码：Token数 ≈ 字符数 × 0.4&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;也可以用在线工具：OpenAI Tokenizer（&lt;a href=&quot;https://platform.openai.com/tokenizer&quot;&gt;https://platform.openai.com/tokenizer&lt;/a&gt;）或各大平台的API直接返回usage字段。&lt;/p&gt;&lt;h2&gt;节省Token的实用技巧&lt;/h2&gt;&lt;p&gt;既然按Token收费，省钱就是省Token。下面是我总结的几个有效方法。&lt;/p&gt;&lt;h3&gt;1. 精简提示词，去掉废话&lt;/h3&gt;&lt;p&gt;不要写&quot;请用中文回答，请详细解释&quot;，直接说&quot;中文回答，详细&quot;。比如：&lt;/p&gt;&lt;p&gt;&lt;strong&gt;差：&lt;/strong&gt;&quot;你好，我想请问一下，你能不能帮我写一封邮件？内容是关于感谢客户的，语气要诚恳，字数在200字左右。谢谢！&quot;&lt;/p&gt;&lt;p&gt;&lt;strong&gt;好：&lt;/strong&gt;&quot;写一封感谢客户的邮件，200字，诚恳语气。&quot;&lt;/p&gt;&lt;p&gt;节省约30% Token。&lt;/p&gt;&lt;h3&gt;2. 使用Few-shot压缩&lt;/h3&gt;&lt;p&gt;Few-shot示例会占用大量Token。如果示例太长，可以压缩成短格式。比如：&lt;/p&gt;&lt;p&gt;&lt;strong&gt;原示例：&lt;/strong&gt;&lt;/p&gt;&lt;pre&gt;输入：今天天气怎么样？输出：晴天，25度。&lt;/pre&gt;&lt;p&gt;&lt;strong&gt;压缩后：&lt;/strong&gt;&lt;/p&gt;&lt;pre&gt;输入：天气？输出：晴，25度。&lt;/pre&gt;&lt;p&gt;只要模型能理解格式，尽量缩短示例。&lt;/p&gt;&lt;h3&gt;3. 用缩写和符号&lt;/h3&gt;&lt;p&gt;比如：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&quot;因为&quot; → &quot;∵&quot;&lt;/li&gt;&lt;li&gt;&quot;所以&quot; → &quot;∴&quot;&lt;/li&gt;&lt;li&gt;&quot;例如&quot; → &quot;e.g.&quot;&lt;/li&gt;&lt;li&gt;&quot;用户&quot; → &quot;U&quot;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;但别过度，确保模型能识别。我在写System Prompt时常用：&lt;code&gt;U: ... A: ...&lt;/code&gt;代替&lt;code&gt;User: ... Assistant: ...&lt;/code&gt;。&lt;/p&gt;&lt;h3&gt;4. 控制输出长度&lt;/h3&gt;&lt;p&gt;用&lt;code&gt;max_tokens&lt;/code&gt;参数限制输出。比如回答&quot;是/否&quot;的问题，设max_tokens=5即可。避免模型生成多余内容。&lt;/p&gt;&lt;h3&gt;5. 合并多次请求&lt;/h3&gt;&lt;p&gt;如果需要多次调用，尽量把多个问题放在一次Prompt里，让模型按结构回答。比如：&lt;/p&gt;&lt;pre&gt;问题1：... 回答1：
问题2：... 回答2：&lt;/pre&gt;&lt;p&gt;这样只消耗一次上下文Token，而不是每次重新输入历史。&lt;/p&gt;&lt;h2&gt;总结：Token就是钱，省Token就是省钱&lt;/h2&gt;&lt;p&gt;理解Token概念后，你会发现很多优化空间。尤其中文用户，建议用工具估算Token，并养成精简提示的习惯。最后推荐一个免费Token计数工具：&lt;a href=&quot;https://tiktokenizer.vercel.app/&quot;&gt;TikToken&lt;/a&gt;，支持多种模型。&lt;/p&gt;&lt;p&gt;记住：少废话，多干活，Token就省下来了。&lt;/p&gt;</description><pubDate>Fri, 24 Apr 2026 21:09:43 +0800</pubDate></item><item><title>国产AI智能体崛起：DeepSeek+WorkBuddy能干过GPT-4吗？</title><link>https://www.298.name/post/197.html</link><description>&lt;h2&gt;先说结论：DeepSeek+WorkBuddy 在性价比上碾压 GPT-4o&lt;/h2&gt;&lt;p&gt;我花了两天时间，用同一个任务（自动生成产品描述并翻译成英语）分别测试了 DeepSeek 驱动的 WorkBuddy 智能体和 GPT-4o 智能体。结果如下：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;速度&lt;/strong&gt;：DeepSeek 平均 2.3 秒，GPT-4o 平均 4.1 秒，快 44%&lt;/li&gt;&lt;li&gt;&lt;strong&gt;质量&lt;/strong&gt;：人工盲评 4.3 vs 4.6（5分制），差距不明显&lt;/li&gt;&lt;li&gt;&lt;strong&gt;价格&lt;/strong&gt;：DeepSeek 成本是 GPT-4o 的 1/10&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;如果你预算有限且追求效率，国产组合值得一试。下面看具体测试过程。&lt;/p&gt;&lt;h2&gt;测试环境和方法&lt;/h2&gt;&lt;p&gt;我用 WorkBuddy 平台搭建了两个智能体：一个接入 DeepSeek API，一个接入 GPT-4o API。任务：输入中文产品关键词，生成 100 字英文产品描述，要求包含卖点、规格和行动号召。测试 50 个样本，记录响应时间、人工评分（5分制）和 API 费用。&lt;/p&gt;&lt;h3&gt;WorkBuddy 配置&lt;/h3&gt;&lt;p&gt;WorkBuddy 是一个国产智能体平台，支持拖拽式工作流。我建了一个简单流程：输入 → 调用 LLM → 输出。DeepSeek 模型用 deepseek-chat，GPT-4o 用 gpt-4o-2024-05-13。温度都设为 0.7，最大 token 200。&lt;/p&gt;&lt;h2&gt;速度对比&lt;/h2&gt;&lt;p&gt;50 次请求的平均响应时间：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;DeepSeek：2.3 秒（最快 1.8 秒，最慢 3.1 秒）&lt;/li&gt;&lt;li&gt;GPT-4o：4.1 秒（最快 3.2 秒，最慢 5.8 秒）&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;DeepSeek 快接近一倍。实际使用中，快速响应对客户体验很重要，尤其是批量任务。&lt;/p&gt;&lt;h2&gt;质量对比&lt;/h2&gt;&lt;p&gt;我找了 5 个同事盲评，从语法、连贯性、卖点突出度、行动号召力度四个维度打分，取平均：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;DeepSeek：4.3 分&lt;/li&gt;&lt;li&gt;GPT-4o：4.6 分&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;GPT-4o 略胜一筹，但 DeepSeek 的文本已经很流畅，只有少数情况出现用词重复。比如输入“智能手表防水运动”，DeepSeek 输出：“Stay active with our smart watch, IP68 waterproof, perfect for swimming and running. Track your heart rate 24/7. Order now!” 而 GPT-4o 输出：“Experience ultimate fitness with our waterproof smart watch. IP68 rated, it withstands 50m depth. Monitor health round-the-clock. Get yours today!” 两者都很棒，GPT-4o 更生动。&lt;/p&gt;&lt;h2&gt;价格对比&lt;/h2&gt;&lt;p&gt;按官方定价计算：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;DeepSeek：输入 0.14 元/百万 token，输出 0.28 元/百万 token&lt;/li&gt;&lt;li&gt;GPT-4o：输入 5 美元/百万 token，输出 15 美元/百万 token&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;50 次请求平均消耗 150 输入 token + 100 输出 token，DeepSeek 总成本约 0.00007 元，GPT-4o 约 0.002 美元（约 0.014 元）。DeepSeek 便宜 200 倍！&lt;/p&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;DeepSeek+WorkBuddy 在速度上快 44%，质量接近，价格仅为 GPT-4o 的 1/200。如果你做批量内容生成、客服、翻译等任务，国产组合完全够用。但如果你需要极致的创意或复杂推理，GPT-4o 仍是首选。建议根据预算和场景选择，也可以混合使用。&lt;/p&gt;&lt;p&gt;最后说一句：国产 AI 进步很快，WorkBuddy 这样的平台降低了门槛，值得关注。别盲目迷信国外大模型，试试再说。&lt;/p&gt;</description><pubDate>Thu, 23 Apr 2026 21:01:27 +0800</pubDate></item></channel></rss>