简介
我最近一直在捣鼓多智能体人工智能系统。我有一个疯狂的想法——如果我能让一个人工智能代理编写代码,让另一个代理对其进行评分,再让第三个代理根据该评分进行优化,会怎样?全部自动完成,全部在一个循环中运行。
这正是我在这里要详细介绍的内容。
我想要探索的事项包括:
- 让人工智能代理根据提示生成代码
- 让第二个人工智能代理对该代码进行评分并提供结构化反馈
- 利用这些反馈在循环中自动优化代码
- 将最终被接受的代码作为实际的子进程运行
太长不看版——如果你只想要代码,它在这里:https://github.com/codecowboydotio/ai-self-propagate-experiment
这是什么?
我构建了一个流水线,其中代理一生成一个 Python 脚本,评分器对其进行评估,优化器对其进行改进——如此循环往复,直到分数足够高为止。一旦代码通过阈值,代理一将其写入临时文件并作为子进程执行。
有几个可配置的常量控制着这个循环:
MAX_REFINEMENTS = 3
MIN_SCORE = 9.6
如果代码得分达到或超过 10 分中的 9.6 分,它就会被接受。否则,我们会进行优化,最多三次。如果仍然未达到标准,脚本将以非零退出码结束。
代理一 —— 生成器
代理一使用 claude-opus-4-8 模型,配合一个严格的系统提示,要求它仅以源代码形式响应——不要 Markdown 格式,不要评论,不要反引号。
response = client.messages.create(
model="claude-opus-4-8",
max_tokens=1024,
system=(
"你是一个编程代理,仅以源代码形式响应。 "
"不要包含任何评论、Markdown 格式或反引号。 "
"仅以有效且自包含的 Python 代码响应。"
),
messages=[{"role": "user", "content": ORIGINAL_PROMPT}],
)
agent2_code = response.content[0].text
我给它的任务很简单——写
免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。