好独立开发者的日常就是——时间紧、资源少、预算有限。但最近我花了 72 小时,用开源模型 GPT-OSS 搭了个「追问式对话 API」,效果意外的好,分享一下我的踩坑过程。
为什么折腾这个?
我平时帮朋友做在线编程课程,学生总喜欢“追问”:
- 老师,这段报错是什么意思?
- 改了之后还是错怎么办?
- 有没有更好的写法?
人工客服根本顶不住,雇人又烧钱,于是就想着——能不能做个 AI 助教,帮忙答一部分问题?
核心方案
- 模型:GPT-OSS(开源权重)
- 训练方式:LoRA + Adapter 微调
- 服务框架:FastAPI
- 目标:延迟 < 800 ms,准确率 > 90%
过程分享
1. 数据准备
- 收集了 2k 条课程问答,里面包含很多追问场景
- 整理了一批 常见报错 + 对应解决方案
- 加了一些 实战代码片段,保证回答不是“空话”
2. 模型调优
- 用 LoRA 微调,GPU 租了个最低配的(成本不到 200 块)
- Adapter 的好处是快,不用全量训练
3. API 开发
用 FastAPI 写了个最小可用的服务:
from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
app = FastAPI()
model = AutoModelForCausalLM.from_pretrained("gpt-oss")
tokenizer = AutoTokenizer.from_pretrained("gpt-oss")
@app.post("/qa")
def qa(user_input: str):
inputs = tokenizer(user_input, return_tensors="pt")
outputs = model.generate(**inputs, max_length=512)
return {"answer": tokenizer.decode(outputs[0], skip_special_tokens=True)}
没啥花哨功能,先跑起来再说。
4. 部署 & 测试
- 用 Docker 打包,部署到一台小服务器
- 并发测试:100 QPS 还能跑得动
- 延迟:平均 600 多毫秒
- 命中率:92%,够用了
上线体验
把它接到编程课程里之后:
- 学生问问题时,AI 会直接给出答案,还能追问下去
- 教师的答疑压力至少减少了 40%
- 学生反馈“好像有个随时在线的助教”
3 天的开发投入,换来长期的节省,对于独立开发者来说挺划算。
给同行的建议
- 先别追求完美:能跑起来才是第一步
- 数据比模型更重要:整理自己的课程/项目 Q&A 很关键
- 开源真香:不用担心 API 费用爆炸,也不用怕服务下线
总结
独立开发者完全可以用 GPT-OSS + FastAPI 在短时间内做出一个 实用的 AI 助教。
👉 我把完整代码和部署过程写在官网文章里,有兴趣可以过去看看。