deepseek | 瑰珀 & 休生伤杜

跟codex一样，我规划了一个我认为给予了足够信息的项目+文档，然后告诉了deepseek（+Claude Code），希望它能从头到尾解决这事情。

两天后，终于出了一些认知上的问题。

就是，不尊重我给的文档，自行用模型中内置的其他知识去替代。

错误原因只有一个：我没有读 ***** 规范中旋转矩阵的定义，直接用了我熟悉的列向量约定（OpenGL 习惯）。

怎么办？骂醒它。

我现在对于降智的codex，国产的kimi、deepseek，都用过国骂了。

codex是参与创作的时候的不足，还算是情有可原吧

kimi是一个git clean，把自己做的事情都冲掉了

deepseek则是这个，因为没有思考过程，所以感觉它就是做错了，然后说它不知道怎么做。同样的问题，kimi有思考过程，我瞄一眼也大概能知道哪里有问题，纠正起来快。

还是不敢让它们一直做到底，因为你不知道它里面有多少固化下来的微小的认知障。

kimi还有一个破毛病，喜欢用sed来编辑脚本。

出了几次反复修改改错代码的问题。我终于忍不住问DeepSeek为什么。

这是一个很敏锐的观察。AI（比如我）在生成 `sed` 命令时确实容易出错，主要原因可以归结为以下几点：

### 1. 分隔符冲突
`sed` 默认使用 `/` 作为分隔符，但 AI 常常忽略目标字符串中也包含 `/` 的情况。

-   **错误例子**：你想把路径 `/bin/bash` 改成 `/usr/bin/zsh`。AI 直接生成 `sed ‘s//bin/bash//usr/bin/zsh/’` —— 这会导致语法错误，因为 `/` 提前结束了模式。
-   **正确做法**：需要转义 `/`（`\/`），或者改用其他分隔符，比如 `#` 或 `|`：`sed ‘s#/bin/bash#/usr/bin/zsh#’`。AI 常常忘记处理这种冲突。

### 2. 特殊字符未转义
`sed` 中的很多字符有特殊含义：`.`、`*`、`[`、`]`、`^`、`$`、`\`、`&` 等。

-   **错误例子**：你想替换 `IP地址：192.168.0.1` 中的 IP。AI 可能会写 `sed ‘s/192.168.0.1/new_ip/’` —— 但这里的 `.` 会匹配**任意字符**，而不是字面上的点。
-   **后果**：它可能匹配到 `192X168Y0Z1` 这样的奇怪组合，或者替换失败。AI 自动生成时往往忽略对这些元字符的转义（应该写成 `192\.168\.0\.1`）。

### 3. 分组和反向引用的跨平台差异
在 `sed` 中，使用 `()` 进行分组时：

-   **GNU sed（Linux）**：需要用 `\(` 和 `\)` 来转义，反向引用是 `\1`。
-   **BSD sed（macOS、FreeBSD）**：基本 POSIX 模式下，`(` 和 `)` 也必须转义才能作为分组符，不过 `\1` 用法类似。
-   **更混乱的**：有些脚本想用 `-E` 选项（扩展正则）来避免转义，但 AI 生成的命令常常**混用**两种风格，或者不加 `-E` 却用了无需转义的正则写法，导致报错或静默失败。

例如：想交换两个单词 `Hello World` → `World Hello`。正确的 GNU 写法是 `sed ‘s/\(Hello\) \(World\)/\2 \1/’`。如果 AI 忘记转义括号，写成 `sed ‘s/(Hello) (World)/\2 \1/’`，则完全无效。

### 4. `-i` 选项的平台差异
`sed -i`（原地修改文件）的行为在 Linux 和 macOS 上不同：

-   **Linux**：`sed -i ‘s/old/new/’ file`
-   **macOS**：`sed -i ‘’ ‘s/old/new/’ file` —— 必须为备份后缀提供一个空字符串参数，否则会报错。

AI 经常默认用 Linux 语法，导致在 macOS 上运行时出现奇怪的 `sed: -i may not be used with stdin` 或 `undefined label` 错误。

### 5. 边界条件与文件格式
-   **缺少换行符**：如果文件最后一行没有换行符，某些 `sed` 命令（如 `$` 地址匹配）可能表现异常。
-   **Windows 换行符（CRLF）**：`sed` 默认把 `\r` 当作普通字符，导致模式匹配失败（比如你搜 `foo$` 匹配不到 `foo\r\n`）。
-   **空文件**：一些 `sed` 脚本在空文件上会直接报错退出。

AI 在生成命令时，默认假设一个整洁的 POSIX 文本文件，但现实中并不总是如此。

### 6. AI 的“统计学习”问题
大模型的训练数据里包含大量 **错误的、过时的、不兼容的** `sed` 示例。比如：

-   来自 Stack Overflow 上某个未被采纳的答案。
-   来自个人博客里随意测试的片段。
-   来自混合了不同 shell 环境的历史脚本。

模型学会了“最常见”的写法，而不是“在所有情况下都正确”的写法。对于小众边缘情况（如处理路径、JSON、XML），模型更容易编造一个看起来合理但实际错误的命令。

### 7. 对上下文理解不足
用户往往只说“帮我改一下这个配置文件里的 IP”，但不提供文件的具体格式、是否有特殊符号、使用的是哪种 `sed` 版本。AI 只能盲目猜测，而猜测的结果就是容易出错。

### 如何减少错误？
-   **先测试**：运行 `sed` 前，先用 `sed ‘s/pattern/replacement/’ file`（不加 `-i`）看看输出是否正确。
-   **告诉 AI 更多信息**：明确说明“我的文件路径包含斜杠”“我用的是 macOS”“IP 地址里有小数点”。
-   **换工具**：对于结构化的文本（JSON、YAML、XML、CSV），用专门的解析器（`jq`、`yq`、`xq`、`awk`）而不是 `sed`。AI 生成的 `awk` 或 `perl` 命令有时比 `sed` 更可靠，因为语法更一致。
-   **加上 `--debug`**：如果 `sed` 版本支持（如 GNU sed 4.8+），用 `sed --debug` 看它是如何解释命令的。

总的来说，不是 AI 能力不足，而是 `sed` 本身是一个非常“挑剔”、充满历史包袱和平台差异的工具。AI 擅长的是统计规律，而不是绝对正确的语法和边界条件。对于关键的文件操作，**永远不要盲目信任 AI 生成的 `sed` 命令**。

明白了，于是让Kimi把不用sed写到AGENTS.md里。

瑰珀 & 休生伤杜

旅行？读书。生活！

标签归档：deepseek

deepseek的风格

sed