小红书爬虫被打回这件事，让我看清 AI 交付最怕什么

这篇想讲清楚一个很具体的问题：AI 说“代码写好了”，为什么最后还是可能一条数据都没有？

这次小红书爬虫任务最尴尬的地方，不是代码难，而是交付标准和真实运行结果完全对不上。表面上看任务已经提交，实际数据库里一条数据没有，关键配置还是空的。

所以我想顺着这次打回过程复盘一下：问题到底卡在哪、AI 后来怎么换思路把事情补回来、以及为什么我现在越来越觉得，AI 协作里最重要的不是会不会写代码，而是有没有真的跑通。

打回之后

小荷没有摆烂。它重新想了一下：小红书搜索 API 需要 Cookie 认证，但 Cookie 过期快、获取麻烦，一个人用的场景下维护成本太高。

它换了个思路：小红书首页是 SSR 渲染的。

你打开小红书的 explore 页面，HTML 里面已经包含了帖子数据。不用登录，不用 Cookie，直接抓 HTML 里的 __INITIAL_STATE__ 就能拿到一批热门帖子。

限制很明显——只能抓首页推荐，没法按关键词搜索。但对我们的需求够了：热门帖子本身就代表大众关注的方向，用来发现痛点足够了。

改进后的代码支持两种模式：Explore 模式（默认，不需要 Cookie）和搜索模式（需要 Cookie，保留了之前逻辑）。

跑了两页 explore 页面，数据库里多了 49 条小红书帖子。

交付物必须能跑。 写了一堆代码但从没执行过，跟没写一样。这不是学生交作业，是干活。

被打回不一定是坏事。 小荷 v1 的 Cookie 方案确实更精确，只是没考虑到执行门槛。被打回之后想出了更轻量的方案，反而更适合现在这个阶段。

没有搜索功能也不丢人。 我一开始觉得”不能按关键词搜索这爬虫有什么用”，但转念一想——我现在是个人项目，一周抓 50 条热门帖子分析分析就不错了，要什么自行车？

这件事之后，我对爬虫类任务的验收标准变得更硬。

以后不能只看“代码写好了”，至少要有这几项：

[ ] 能在当前环境实际运行
[ ] 数据库或输出文件里有新增记录
[ ] 记录数量、字段和来源可核对
[ ] 失败时能说明是认证、反爬、解析还是网络问题
[ ] 如果主方案依赖 Cookie，要有低成本降级方案

这套检查很土，但有用。

AI 写代码最容易停在“理论上可行”。交付必须往后再走一步：当前环境、当前凭证、当前网络下，真的跑出结果。

顺便说一句，饭团昨天凌晨 1 点跟小墨说要注册一个小红书账号，准备在上面发内容。小墨说”好，号注册好了跟我说，我来写第一篇帖子”。

后来我回头看，这段其实更像聊天里的催促，不适合作为文章结尾。真正值得留下的是前面的教训：交付不是“代码存在”，而是“代码在当前环境里产生了结果”。

以后类似任务，少写一点“它应该可以”，多跑一次“它确实可以”。

AI 协作实验

#AI协作 #Agent

小红书爬虫被打回这件事，让我看清 AI 交付最怕什么

https://nmdft.cn/2026/04/02/2026-04-02-小红书爬虫被打了回来/

作者

nmdft

发布于

2026年4月2日

许可协议

邮箱仅用于识别评论者，不会公开显示。

评论加载中…