人工智能回电给我——Recoverflow 开发日记第二天:与语音智能体共度两小时

发布日期:2026-06-20 10:03:08   浏览量 :6
发布日期:2026-06-20 10:03:08  
6

第一天结束后,我在等待第二天——语音代理日。

老实说,语音代理是整个系统中让我最紧张的部分。

因为其他代理——撰写电子邮件、查询数据、执行路由——往坏了说,它们只是写出一些平庸的内容,被语气教练拦截,然后重写一次。但语音代理实际上会拿起电话拨打给真人。对方接听后,会听到莎拉的声音,听到我编写的脚本,并接收我设计的路由信息。

如果其中出现任何错误,挂断电话的人不会告诉你“你的人工智能很奇怪”。他们只会记得“那家公司令人不愉快”。

催收工作在这方面尤其敏感,因为对方本来心情就不好,对吧?他们可能面临真正的现金流问题,可能刚和自己的客户吵过架,也可能在等待别人付款给他们。如果你的人工智能再踩中一个雷区,那就成了压垮关系的最后一根稻草。

所以在第二天的整整一天里,我一直在思考两件事:

第一,语音代理必须是双向的,而不是单向的。

第二,如果是双向的,它必须能够理解人类实际说的话。

为什么单向语音是不够的

最初的语音代理设计是——我们拨出电话,交谈,然后挂断。就像提醒邮件的音频版本。

但是,当我在编写第五十五天的最后通牒通话部分时,我把脚本大声读了一遍,感觉不对劲。

脚本中让莎拉说:

“我知道可能会出现突发状况。如果您需要,我们可以制定一个还款计划。”

但是——在她说完这句话之后,应该发生什么?

如果客户回应说“好的,下周”、“我需要和老板商量一下”、“其实我们现在有现金流问题”——单向语音听不到这些,对吧?

那么这句“我们可以制定一个还款计划”就只是说说而已,然后下一秒我们就挂断电话吗?

这种设计矛盾早已植根于决策 D-027 之中。设计意图是对话,因此语音必须是双向的。第二天的目标就是完成这一改造。

ElevenLabs 对话式人工智能——第 -1 天播下的种子

当我在第 -1 天(6月11日)注册 ElevenLabs 时,我选择了 ElevenAgents——他们的对话式人工智能产品。

当时 J 告诉我:“首先使用免费层级的 15 分钟在开发游乐场运行,这不会消耗实际通话分钟数,当你真正想要外拨时再升级到 6 美元的入门版套餐。”

所以我照做了。

第二天我做的第一件事就是进入 ElevenLabs 平台,构建完整的对话式人工智能代理。

我选择的声音是莎拉——声音 ID EXAVITQu4vr4xnSDxMaL。这是 ElevenLabs 附带的一个预制声音,免费,定位为“成熟、令人安心、自信的美式英语女性声音”。

我听了一些声音样本。我选择莎拉的原因很简单:她的声音听起来像是我愿意接听电话的那种声音

不太年轻,不过分甜美,也不是冷冰冰的客服机器人声音。而是那种……你拨打一家美国中型银行的客服热线时,可能会与之交谈的某位中年高级顾问——冷静、温暖,但保持着专业的距离感。

催收工作恰恰需要这样的声音。

太年轻会让客户怀疑你公司的专业性,太老派则会显得咄咄逼人。莎拉正好处于中间位置……

18 个动态变量——如何让莎拉“了解”这位客户

对话式人工智能代理的提示词是固定的,但每次通话面对的都是不同的客户——不同的公司名称、不同的未结余额、不同的逾期天数、不同的行为模式。

为了让莎拉听起来像是真的在与特定

免责声明:本文内容来自互联网,该文观点不代表本站观点。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请到页面底部单击反馈,一经查实,本站将立刻删除。

关于我们
热门推荐
合作伙伴
免责声明:本站部分资讯来源于网络,如有侵权请及时联系客服,我们将尽快处理
Copyright © 2025-2027 ToB产业网址导航 公安备案 浙公网安备33010602013138号 浙ICP备16025413号-9
支持 反馈 订阅 数据