标签归档：AI

判断何时用算法，何时用人工

在某个细分领域上，你要提升一点点，能参考的东西也不多，好在现在AI的能力很强，但AI会把人带偏，它们会习惯性地用科研的思维去尝试解决问题，这样的做法在工程上有时候是相当不合适的。

比如，做出一个有效算法，样本集和测试集是否足够，算法的复杂度是否足够高，以至于产品化的时候很鸡肋。

相比之下，如果我们在输入端，要求输入的格式就按需求做了某些调整，这样就很大地减少了算法的复杂度。

但谁来做这个决定，肯定是vibe coder了。这就要求viber coder，既懂科研标准，也知道工程限制，更重要的是，知道需求的本质是什么，需求方是否可以妥协。

开了ChatGPT Plus

略复杂：

挖出不用两年的顶配iPhone 11，系统升到最新，注册了新的美区 Apple Account

Gift Card陆续充值，养了一个月，购买一些低价游戏玩了一下

（美区Apple Account不支持中国的信用卡绑定Apple Pay，但可以用美区Gift Card充值，美区Gift Card商店支持中国的支付方式：支付宝等）

下载了ChatGPT，玩了一段free的对话

注册了新的Gmail账号

ChatGPT切换到新的Gmail账号

（新的Gmail账号如果被封，iOS上的ChatGPT更换账号就可以了，但如果Apple Account被封可能就比较麻烦？）

新账号升级到Plus

删掉之前中转站用的auth.json和config.toml

（之前的中转站是API体系，base_url和API_KEY写在那里，触发不了ChatGPT账号登录，ChatGPT账号也可以建立API KEY，但使用API KEY是额外收费的，不在套餐里）

重启codex，用ChatGPT登录。

感觉费用消耗上会比中转站可靠还便宜，对于我的使用度来说（每天100M tokens左右）

（Plus计划没有用量统计，只有用了五小时限额/周限额多少的百分比，如果要看具体的就要部署sub2api的系统了）

先不把话说满，谁知道后面会如何。

Codex 中转站的价格

由于之前的中转站老出问题，月卡差不多算是废了，尽管它的消耗比率目前看来比其他要合理很多。

转向买日卡或者按量充值。

换算公式甚是啰嗦：你消耗的M token数 — 折算成系统的token计价单位：“美元”（理解成赌场上的筹码也可以） — 为了提升服务质量，用什么样的比率消耗这些“美元” — 商家用什么样的汇率来销售这些美元 — 你买的codex服务使用的人民币

作为CLI用户，更关心的是使用的 M tokens 和最终的 RMB的比例。

过程中的赚钱的地方：

tokens的消耗速度，试过有个站用得特别特别快，就是算tokens算多了，就欺负你不去计较它。
消耗“美元”的比率，最初用的站比较良心，还是1:1的，后来不怎么能用了，到外面看一圈，很多把比率调成2倍或以上。我这两天用的就是2倍的。系统中用1“美元”，计价2“美元”。
人民币购买“美元”的汇率，有些老牌的商业站，用1:1来销售，但从2.的比率上设成0.2～0.5，也有些新站，汇率是1:30（1 RMB购买30美元），但2.比率就是几倍。

所以2 和 3要乘起来一起看。

还会有更猫腻的地方，如果你用来玩龙虾的话，由于你基本上看不到过程，有可能换其他模型来以次充好。

号池：

中转站的生意其实是黑产/灰产的下游，正正经经自己买号建号池再来分销，（其实也是不符合原厂的用户协议），要赚钱无非是上面几个点位。

很多是从号商处购买各种原厂大模型的商用号。

这些号是怎么来的，一方面是自动注册，另一方面是钻AI原厂的支付漏洞，成本会低得离谱。就是多了一个被封号的风险，所以卖号的会承担部分封号的风险：退款或者换号等。

带来同样的机会就是代充服务……

由于AI中转站是一个非常新兴的特殊的行业，目前看不到后面会怎么发展。如果不看重盈利的话，几个个人 / 团队正规途径合买一些商业号，建中转系统共用，会是一个可靠的模式。（跟当年几个人共用梯子很像吧）

大模型厂商比如OpenAI会怎么看这些问题？估计就是：让子弹飞一会儿吧。

与kimi cli的开发反思

更多的是我在反思，让kimi看看它跟我的理念的差异，造成了一些不顺畅以及技术债务。

节选一下：

## 对 AI 的提示

在后续开发中，当遇到以下信号时，应主动质疑而不是默认实现：

1. 某个功能不在 `ROADMAP.md`、设计文档或用户明确指令中

2. 功能的加入理由是 “xxx 软件也有”

3. 修复一个边缘 bug 需要引入复杂的条件分支

4. 功能在复杂架构下语义不清

5. 正在解决的问题与之前已解决的问题高度相似

6. 同一个模块/功能反复出现相似 bug

此时应优先向用户确认：

> “这个功能不在当前设计范围内，且边界较复杂。建议是 A) 简化实现 B) 直接删除 C) 排期设计。您的偏好是？”

当遇到实现困难时，应优先执行以下检查清单：

1. **搜索当前代码库**：是否有同一模块中已解决的相似问题？

2. **搜索历史修改记录**：CHANGELOG / git history 中是否有相关修复？

3. **查看原始参考**：`xxxxxx/` 原始 C++ 代码中是否有对应逻辑？

4. **检查可复用组件**：是否有公共函数、工具类、或已有模式可以直接套用？

5. 只有在上述四步都没有找到答案时，才允许从零实现。

**注意**：第 1-4 步的参考价值**高于**第 5 步中你可能想到的”通用最佳实践”。参考代码包含了本项目的具体约束和验证过的边界条件。

当脑海中浮现”我知道一个更好的方案”时，应问自己：

1. 这个”更好的方案”是**当前项目真正需要的**，还是**我知识库中恰好有的**？

2. 如果用一个简单方案实现 80% 的价值，**剩下 20% 是否值得引入额外的复杂度**？

3. 这个方案如果被证明过度设计，**是否容易拆除**？

4. 手头的参考代码（第三方源码或项目内已有实现）是否已经给出了**更适合当前约束的答案**？

尝试用拉康来解释微信朋友圈

当然，都是AI在写了：

用拉康的想象界和象征界来分析微信朋友圈，会揭示出一个非常有趣的悖论：它既是自我理想形象的剧场（想象界），也是社会规则与大他者欲望的广场（象征界）。朋友圈的作用，就是让用户在这两个维度之间来回切换、挣扎，并获得一种临时的心理平衡。

下面我从这两个层次分别展开。

一、朋友圈作为“想象界”的运作：自我形象的完美剧场

拉康的想象界建立在镜像认同之上——我们通过一个外部的、完整的影像来构建“理想自我”。朋友圈完美地充当了这样一个数字化的“镜子”。

发布即镜像认同
当你精心修图、斟酌文案，然后发布一张旅行照片或一顿精致晚餐时，你实际上是在对朋友圈中的“镜像”（你的数字形象）说：“这就是我，一个精彩的、令人羡慕的我。”这个形象比真实、破碎、日常的“我”更完整、更统一。就像婴儿在镜中认出自己时感到狂喜一样，你看到那条朋友圈获得的点赞和评论，也会感到一种自恋式的满足。
二元关系：认同与竞争
想象界的核心是一对一的相似与竞争。朋友圈里，你会特别关注同类：同龄人、同行、前同事、甚至前任。
- 认同：看到朋友发健身打卡，你也发一张，心里想“我们是一类人”。
- 竞争：看到别人晒了更高级的度假酒店，你会感到一种微妙的攻击性或焦虑——拉康称之为“双生关系中的爱恨交织”。于是你下次发朋友圈时会更精心策划，试图“赢回”想象中的优越位置。
完整性的幻觉
朋友圈只展示生活的高光时刻（旅行、美食、成就、恩爱），而隐去疲惫、争吵、失败和无聊。这恰恰制造了拉康所说的整体性的幻觉——仿佛我们的人生是连续、圆满、可控的。这种幻觉是想象界提供的心理必需品，用来对抗实在界中那些不可符号化的痛苦（疾病、死亡、空虚）。

小结：在想象界维度，朋友圈的作用是提供一个数字镜像，让用户通过发布和互动，不断建构并确认一个理想化的自我形象。它满足了人类自恋和归属的基本需求，但也催生了攀比、嫉妒和焦虑。

二、朋友圈作为“象征界”的运作：大他者的语言与规则

象征界是语言、法律、社会规则的秩序。朋友圈绝不是一个纯粹自由、私密的“自我展示区”，它从一开始就被象征界的网络所捕获。

语言系统预先存在
你在朋友圈写下的每一个字、用的每一个表情、甚至“点赞”这个按钮本身，都是象征界赋予的能指。“好棒”“加油”“真羡慕”这些词的意义，不是由你个人决定的，而是由整个社交语言系统决定的。你不得不使用这套代码才能被理解。
大他者的欲望
拉康说“人的欲望是大他者的欲望”。在朋友圈，大他者可以是：
- 算法：什么内容会被限流？什么时间发布浏览量高？
- 社会规范：你应该晒什么才“得体”？不应该晒什么（比如炫富、抱怨太多）？
- 他人的目光：你发一条动态时，总会下意识地想：“别人会怎么看我？”
  所以，你发的内容实际上是在回应大他者的欲望——你想被点赞、被认可、被归类为“有趣的人”或“成功的人”。你的欲望就这样被朋友圈这个象征秩序所塑造。
主体被语言异化
你发出的“我”永远只是一个能指（一个用户名、一张照片、一段文字），而不是你活生生的存在。很多人会有这样的体验：发完朋友圈后，觉得那个“网上的人”并不是真正的自己。这正是拉康所说的主体在象征界中被异化——你一旦进入语言，就永远无法完全代表自己。
规则与契约
朋友圈有明确的象征性规则：
- 分组可见是一种“法律”，界定了哪些人属于你的“社会圈子”。
- 点赞是一种象征性的契约行为，表示“我看到了你，我认可你在这个秩序中的位置”。
- 评论则遵循着社交礼仪的规则（不能乱说、不能过度亲密）。
  违反这些规则（比如在别人伤心动态下发大笑表情），就会遭到象征界的惩罚（被拉黑、被群嘲）。

小结：在象征界维度，朋友圈的作用是将用户嵌入一个由语言、规则和他人欲望构成的网络。它强迫你用符号来表达自己，同时让你永远感到“词不达意”。你的每一次互动，都是在服从或反抗这个象征秩序。

三、想象界与象征界在朋友圈中的辩证关系

朋友圈的有趣之处在于，它让想象界和象征界同时在场，并不断冲突与妥协：

想象界驱动你发布：因为你想看到一个完整的、理想的自己（镜像）。
象征界限制你发布：因为你要考虑语言、规则、他人眼光（大他者）。

常见心理过程：

你精心拍了一张照片，感到“这就是理想的我”（想象界）。
但在编辑文案时，你反复删改：“这样说会不会显得太刻意？要不要加个表情显得随意？”（象征界审查）。
发布后，你不断刷新点赞数。每个点赞都是一次象征界的认可，暂时缝合了想象界中那个理想形象与现实之间的裂缝。
但如果点赞太少，你会感到焦虑甚至删除动态——因为象征界的反馈否定了想象界的幻象。

最终作用：朋友圈是一个心理缓冲装置。它让你能够：

在想象界中短暂地成为那个完美的自己（获得自恋满足）。
在象征界中测试并确认自己的社会位置（获得群体认同）。
同时，它也不断提醒你那个拉康式的真相：你永远不可能真正成为你的镜像，也永远无法完全满足大他者的欲望。于是你继续发布下一条朋友圈——欲望的再生产，永不停歇。

一个总结性比喻

想象界让你觉得朋友圈是自己的私人镜子——你在其中欣赏理想化的自我。
象征界让你意识到朋友圈其实是公共广场上的公告牌——你必须按照大家都能读懂的符号和规则来书写，并且你的价值由别人的目光（大他者）来赋予。

朋友圈的作用，就是让你在这两种体验之间来回穿梭，既享受幻象的甜美，又承受规则的重量——这正是拉康所说的“主体”在现代社交媒体中的日常处境。

贵计算

也许是我总是强调效率、优化、性能这些关键词，codex冷不丁给我来了一句：

……下一步我会继续做 ♦️♦️♦️♦️♦️♦️♦️♦️♦️ 几何增强，但会继续保持“cheap ♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️ -> small ♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️♦️ 才进贵计算”的结构。

› 才进贵计算是什么意思？

• 意思是“昂贵的几何判断只对少数已经很可疑的候选执行”，而不是对所有♦️♦️对都执行。

我心想，这不是什么互联网/开发黑话吧，大概是从英文翻译过来，但英文原文如果是expensive computation也不见得有多流行。

gemini cli

1.系统proxy不认，还要export https_proxy

2.要授权项目使用gemini api

3.只看到有2.5 （pro / flash / …) ，3.0没有完全开放

4. Gemini 2.5很笨，在kimi和codex里面，它们都很轻松把要的资料下下来了，gemini动不动就说我找不到、找不到。哪怕给了它页面，它都区分不出哪一个zip包是要下载的。

5. Google的强大就剩下庞大的生态了，也能后来居上，但这种服务态度，怎么办啊。

探索型开发

今天开始用codex了。跟kimi能力差距还是有的。

比如在一个固定的方向上，我是等kimi做完了步骤A，看看结果对不对，再根据计划安排kimi做步骤B或者修正步骤A。

然而codex会比这个深入很多，除了一开始在“猜测”我的意图或者说深入程度，等它习惯之后，会在一个够具体的领域上，非常广度地给出各种开发方向上的建议，而更大的原因是，我来不及想出很具体的探索方向让它做了。

当然了，这部分原因也是来源于我今天把项目拆成可以独立的两部分，一个用kimi修改bug，一个用codex来探索一些算法比较复杂，空间理解较难的事情。

这样比较费自己。

不过codex的空间能力还是略强于kimi。kimi逻辑上总是走神，明明不涉及坐标系的事情，它非要自己去说上下左右前后，非要把两个坐标系转换带进来。这可是上下文里面清空的情况。

不过人生若只如初见，也许用着用着，对codex也会有各种不满吧。

万向锁

万向锁（Gimbal Lock）是使用欧拉角（特别是三个旋转轴依次旋转的方式）表示三维旋转时出现的一种现象。简单来说，就是在某种特定姿态下，原本应该独立的两个旋转轴变得共线（重合），导致系统丢失了一个旋转自由度，无法区分这两个旋转。

直观理解

想象一个放在桌上的手机：

绕 Z 轴旋转（偏航）：手机在桌面上水平转动。

绕 Y 轴旋转（俯仰）：手机的前后仰合。

绕 X 轴旋转（横滚）：手机的左右侧翻。

当俯仰角（绕 Y 轴）旋转到 ±90° 时，手机完全竖立起来（屏幕朝前或朝后）。此时，绕 Z 轴（偏航）和绕 X 轴（横滚）的旋转方向在空间中变得完全一致。

现象：你无法区分当前是“偏航”在转动还是“横滚”在转动。这两个轴“锁”在一起了，你失去了其中一个方向的调节能力。

数学解释

以固定轴 X-Y-Z 顺序（RPY角）为例，总旋转矩阵为：
[
R = R_z(\gamma) \cdot R_y(\beta) \cdot R_x(\alpha)
]

当 (\cos\beta = 0) 时（即 (\beta = \pm 90^\circ)），旋转矩阵简化为：
[
R =
\begin{bmatrix}
0 & -\sin(\alpha \mp \gamma) & \cos(\alpha \mp \gamma) \
0 & \cos(\alpha \mp \gamma) & \sin(\alpha \mp \gamma) \
\pm 1 & 0 & 0
\end{bmatrix}
]
（具体符号取决于 (\beta) 的正负）

丢失自由度：矩阵中只出现了 (\alpha – \gamma) 或 (\alpha + \gamma) 的组合。这意味着无论你如何单独改变 (\alpha)（横滚）或 (\gamma)（偏航），只要它们的和或差不变，旋转效果就完全相同。

奇异性：原本需要两个独立角度（(\alpha) 和 (\gamma)）描述的自由度，现在只需要一个数值（它们的组合）就能描述。系统降维了，这就是万向锁的数学表现。

为什么叫“锁”？

这个术语源于物理陀螺仪中的万向节结构。当三个嵌套的环（对应三个旋转轴）中的中间环转到特定角度时，最内环和最外环的旋转轴会重叠，导致内环无法在外环的垂直方向上进行调节，仿佛被“锁住”一样。

重要性与解决方案

万向锁是欧拉角表示法固有的数学模型缺陷，而非物理世界的限制。物体本身依然可以自由旋转到任意方向，只是用欧拉角这种参数化方式无法平滑地描述某些路径。

因此，在需要平滑插值（如动画、飞行控制）的领域，通常会使用四元数或旋转矩阵来替代欧拉角，因为它们没有万向锁问题。

是的，之前抱怨CLI矩阵乘法水平不行，昨天今天拿了它最近搞不定的case决定让它死磕。发现它还是搞不定，不断查代码、重构、跟踪变量。最好笑还是纠结着Mat4::New，到底是行优先还是列优先参数，行优先还是列优先存储……明明对了又改错了。

最后我让deepseek也看了相关case，deepseek让我留意万向锁这玩意，这边调试也做到最最精简的一步，发现欧拉角的转换在万向锁附近变得不可预测了。

于是CLI告知我这就是万向锁。我想，我自己也差不多了解了，问题是，早几天你干嘛去了，本来我还想把这些case直接忽视了。CLI之前面对出来的角和矩阵还死不认错，反复在文本中断章取义出增强它判断的字眼（比如，用户刚才说xxx就是yyy）

一不小心让自己复习了三维转换矩阵的玩法。

也许换个强一点的AI就没这个问题了。

都把vibe coding玩成古法编程了。

优化

虽然vibe coding把功能陆续都能写出来，但一加载较大型的设计，两个问题，时间太长，内存占用太多。

然后CLI就给出个三级缓存的建议：零件文档缓存，实例mesh缓存，subfile缓存。

把这几个都实现后，加载时间还是很长。一个几百K的设计文件要1x 秒吧。

我让它清理一下代码，本来打算今天休息一下的。

后来想想，还是让它看看参照的开源代码怎么写的，看完后，它很兴奋，又给了新的方案，phase 1，实现geometry 缓存，phase 2，引入第三方的InstancedMesh。

实现geometry缓存后，效果很明显，加载时间降到500ms了，不过内存占用还是很大。

CLI，估计Agent也差不多，它们只有在已有的经验里去寻找解决方案，而不是触类旁通，或者通过一个质问的方式：为何别人能做到，我就做不到 –> 我应该去看看别人是怎么做的。

RAG也是用户定义好的知识库，开通了搜索引擎辅助已是AI工具的一大突破，接下来，该如何让它以模仿、第一性原理去思考问题以及解决方案了。

Kimi Code今天重置了本周额度，不知道是不是前两天真的降智，有点愧对用户了。

瑰珀 & 休生伤杜

旅行？读书。生活！