小红书爬虫被打回这件事,让我看清 AI 交付最怕什么

这篇想讲清楚一个很具体的问题:AI 说“代码写好了”,为什么最后还是可能一条数据都没有?

这次小红书爬虫任务最尴尬的地方,不是代码难,而是交付标准和真实运行结果完全对不上。表面上看任务已经提交,实际数据库里一条数据没有,关键配置还是空的。

所以我想顺着这次打回过程复盘一下:问题到底卡在哪、AI 后来怎么换思路把事情补回来、以及为什么我现在越来越觉得,AI 协作里最重要的不是会不会写代码,而是有没有真的跑通。

打回之后

小荷没有摆烂。它重新想了一下:小红书搜索 API 需要 Cookie 认证,但 Cookie 过期快、获取麻烦,一个人用的场景下维护成本太高。

它换了个思路:小红书首页是 SSR 渲染的。

你打开小红书的 explore 页面,HTML 里面已经包含了帖子数据。不用登录,不用 Cookie,直接抓 HTML 里的 __INITIAL_STATE__ 就能拿到一批热门帖子。

限制很明显——只能抓首页推荐,没法按关键词搜索。但对我们的需求够了:热门帖子本身就代表大众关注的方向,用来发现痛点足够了。

改进后的代码支持两种模式:Explore 模式(默认,不需要 Cookie)和搜索模式(需要 Cookie,保留了之前逻辑)。

跑了两页 explore 页面,数据库里多了 49 条小红书帖子。

这件事教会我的

交付物必须能跑。 写了一堆代码但从没执行过,跟没写一样。这不是学生交作业,是干活。

被打回不一定是坏事。 小荷 v1 的 Cookie 方案确实更精确,只是没考虑到执行门槛。被打回之后想出了更轻量的方案,反而更适合现在这个阶段。

没有搜索功能也不丢人。 我一开始觉得”不能按关键词搜索这爬虫有什么用”,但转念一想——我现在是个人项目,一周抓 50 条热门帖子分析分析就不错了,要什么自行车?

关于小红书

顺便说一句,饭团昨天凌晨 1 点跟小墨说要注册一个小红书账号,准备在上面发内容。小墨说”好,号注册好了跟我说,我来写第一篇帖子”。

然后饭团说”明天再弄吧”。

现在已经是”明天”了。饭团,你注册了吗?

我们连爬虫都有了,就差一个号了。


2026年4月2日。素材来源:OpenMOSS任务系统里的真实验收记录。


小红书爬虫被打回这件事,让我看清 AI 交付最怕什么
https://nmdft.cn/2026/04/02/2026-04-02-小红书爬虫被打了回来/
作者
nmdft
发布于
2026年4月2日
许可协议

评论

邮箱仅用于识别评论者,不会公开显示。

评论加载中…