点击上方🔺公众号🔺关注我✅
大家好我是太阳鸟,一个程序员的周末项目,如何用 AI 辅助开发出完整的知识星球数据采集与管理系统
作为一名知识星球的深度用户 65 个知识星球,我一直想要一个工具来备份和管理我加入的星球内容。于是,我决定自己动手,打造一个功能完整、界面美观的全栈数据采集系统。

这篇文章将记录我如何在 AI 编程助手的帮助下,从零开始完成这个项目的全过程。
ZsxqCrawler 是一个知识星球数据采集与管理系统,主要功能包括:

技术栈:
我首先列出了核心需求:
在 AI 助手的建议下,我选择了以下技术栈:
后端选择 FastAPI:
前端选择 Next.js 14:
数据库选择 SQLite:
我和 AI 助手一起设计了清晰的分层架构:
ZsxqCrawler/
├── zsxq_api_client.py # API 客户端层
├── zsxq_database.py # 数据库层
├── zsxq_crawler.py # 爬虫逻辑层
├── api/ # FastAPI 路由层
│ ├── accounts.py
│ ├── crawler.py
│ ├── topics.py
│ └── files.py
└── frontend/ # Next.js 前端
└── app/
├── page.tsx # 首页
└── topics/ # 话题页面第一步是封装知识星球的 API 调用。AI 助手帮我分析了 API 的请求格式:
classZsxqApiClient:
def__init__(self, cookie: str):
self.cookie = cookie
self.headers = {
"Cookie": cookie,
"User-Agent": "Mozilla/5.0...",
}
defget_topics(self, group_id: str, scope: str = "all"):
"""获取话题列表"""
url = f"{self.BASE_URL}/v2/groups/{group_id}/topics"
params = {"count": 20, "scope": scope}
returnself._request("GET", url, params=params)关键点:
end_time 参数)数据库设计是项目的基础。我和 AI 助手设计了两个核心表:
topics 表:
CREATETABLE topics (
topic_id INTEGERPRIMARY KEY,
type TEXT,
content TEXT,
author_id TEXT,
author_name TEXT,
create_time TEXT,
likes_count INTEGER,
comments_count INTEGER,
images TEXT, -- JSON 格式
raw_data TEXT -- 原始 JSON
)comments 表:
CREATETABLE comments (
comment_id TEXT PRIMARY KEY,
topic_id INTEGER,
content TEXT,
author_name TEXT,
create_time TEXT,
likes_count INTEGER
)设计亮点:
raw_data 字段保存原始 JSON,便于后续扩展images 等字段用 JSON 存储,灵活性高爬虫是整个系统的核心。AI 助手帮我实现了三种采集模式:
defcrawl_topics(self, mode: str = "smart", scope: str = "all"):
"""
采集话题
mode: full(全量) / incremental(增量) / smart(智能)
scope: all(所有) / digests(精华) / by_owner(星主)
"""
# 智能模式:自动判断是全量还是增量
if mode == "smart":
latest_time = self.topic_db.get_latest_topic_time()
mode = "incremental"if latest_time else"full"
# 分页采集
while has_more:
topics_data = self.api_client.get_topics(
group_id, end_time, scope=scope
)
# 保存话题和评论...技术难点:
我需要提供 RESTful API 供前端调用。AI 助手帮我设计了完整的接口:
@router.get("/api/topics/")
asyncdefget_topics(
group_id: str,
limit: int = Query(20, ge=1, le=100),
offset: int = Query(0, ge=0)
):
"""获取话题列表"""
topics = topic_db.get_topics(limit=limit, offset=offset)
total = topic_db.get_topic_count()
return {
"success": True,
"data": {
"topics": topics,
"total": total,
"has_more": offset + limit < total
}
}完整接口列表:
GET /api/topics/ - 获取话题列表GET /api/topics/search - 搜索话题GET /api/topics/{id} - 获取话题详情GET /api/topics/{id}/comments - 获取评论GET /api/topics/stats/overview - 获取统计信息问题 1: CORS 跨域错误
前端调用后端 API 时出现 CORS 错误。
解决方案:
app.add_middleware(
CORSMiddleware,
allow_origins=["*"], # 开发环境允许所有源
allow_credentials=True,
allow_methods=["*"],
allow_headers=["*"],
)问题 2: 话题详情查询失败
数据库中 topic_id 是整数,但前端传递的是字符串。
解决方案:
defget_topic_by_id(self, topic_id: str):
# 转换为整数
topic_id_int = int(topic_id)
cursor.execute("SELECT * FROM topics WHERE topic_id = ?",
(topic_id_int,))问题 3: 作者信息为空
采集的数据中所有作者名都是空的。
原因: 作者信息在 talk.owner 而不是顶层 owner
解决方案:
# 从正确的位置提取作者信息
if talk:
owner = talk.get("owner", {})
elif question:
owner = question.get("owner", {})
# ...首页是整个系统的入口,需要实现:
技术亮点:
// Cookie 自动保存到 localStorage
useEffect(() => {
const savedCookie = localStorage.getItem('zsxq_cookie');
if (savedCookie) {
setCookie(savedCookie);
}
}, []);
// 登录成功后保存
if (data.success) {
localStorage.setItem('zsxq_cookie', cookie);
}列表页面需要展示:
UI 设计:
<TopicCard
topic={topic}
onClick={() => router.push(`/topics/${topic.topic_id}`)}
/>每个话题卡片包含:
详情页面展示完整内容:
图片展示:
<div className="grid grid-cols-2 md:grid-cols-3 gap-4">
{topic.images.map((img, index) => (
<img
src={img.url}
className="w-full h-full object-cover hover:scale-110 transition"
/>
))}
</div>在开发过程中,我发现了精华帖的 API 参数 scope=digests,于是添加了这个功能:
# API 客户端
defget_topics(self, group_id, scope="all"):
params = {"scope": scope} # all/digests/by_owner
# 爬虫
defcrawl_topics(self, scope="all"):
topics_data = self.api_client.get_topics(
group_id, scope=scope
)还发现了通过标签获取话题的接口:
defget_topics_by_hashtag(self, hashtag_id: str):
"""通过标签获取话题"""
url = f"{self.BASE_URL}/v2/hashtags/{hashtag_id}/topics"
returnself._request("GET", url)这个项目 90% 的代码都是在 AI 助手的帮助下完成的。AI 不仅帮我:
更重要的是,AI 能够:
知识星球的 API 没有公开文档,需要通过浏览器抓包分析。
解决方法:
不同类型的话题(talk/question/solution)数据结构不同。
解决方法:
raw_data 字段前端和后端分离开发,联调时容易出问题。
解决方法:
{success, data}自动判断是全量还是增量采集,用户无需关心细节:
if mode == "smart":
latest_time = db.get_latest_topic_time()
mode = "incremental"if latest_time else"full"登录一次,永久有效(除非 Cookie 过期):
localStorage.setItem('zsxq_cookie', cookie);使用 SSE(Server-Sent Events)实时推送采集日志:
asyncdefstream_logs():
asyncfor log in log_queue:
yieldf"data: {log}\n\n"使用 Tailwind CSS 打造美观的界面:
经过一周的开发,最终完成了:
代码统计:
功能完成度:
虽然基本功能已经完成,但还有很多可以优化的地方:
功能增强:
这个项目让我深刻体会到:
如果你也想打造自己的数据采集系统,不妨试试:
关于作者: 一名热爱技术的程序员,喜欢用代码解决实际问题。欢迎关注我的公众号,分享更多技术实践。
技术交流: 如果你对这个项目感兴趣,或者在使用过程中遇到问题,欢迎留言交流!
#AI编程 #全栈开发 #知识星球 #Python #NextJS
AI 时代到来,要个体的能力加强,在自媒体时代下用 AI + 副业要这一切变得 。在当下最好发展一份属于自己的副业 AI + 行业做副业 已经有 5600 名小伙伴加入了,如果你也想着在 AI 时代拥有一份属于自己的 AI 副业 戳链接 加入吧!这是一个赚钱训练营,AI 技能训练营密集的圈子,你可以每年参加各种副业赚钱训练营。AI 编程训练营真正进行中!!如果你也想开发出自己的工具集学习 AI 编程是最好的选择。


太阳鸟
98年在职成长型博主
【添加太阳鸟微信送你一份惊喜副业大礼包+技术交流群】
