发布于 2025 年 1 月 29 日
语音是 AI 应用公司最重要的突破之一。它是人类交流中最频繁(也是信息最密集)的形式,由于 AI 首次实现了“可编程”。
对企业来说,AI 直接用技术取代了人力劳动。它更便宜、更快速、也更可靠——而且通常优于人类。语音代理还允许企业 24/7 全天候为客户提供服务,以回答问题、安排预约或完成购买。客户服务时间和企业营业时间不再需要一一对应(你试过太平洋时间下午3点后给东海岸银行打电话吗?);有了语音代理,每个企业都可以随时在线。
对消费者来说,我们相信语音将成为人们与 AI 交互的第一种方式,也许也是主要方式。这种交互可以采取随时可用的伴侣或教练的形式,或者通过普及以前无法访问的服务(例如语言学习)来实现。
我们现在正从 AI 语音的基础设施层过渡到应用层。随着模型的改进,语音将成为突破口,而不是最终产品。我们对初创公司使用语音作为突破口来解锁更广阔的平台感到兴奋。
2024 年是 AI 语音取得重大进展的一年。自从我们发布上次 AI 语音更新以来……
模型开发的进步简化了基础设施“堆栈”,从而降低了语音代理的延迟并提高了性能。过去六个月中,新的对话模型显著推动了这种改进。
随着时间的推移,这些对话模型也变得越来越便宜。2024 年 12 月,OpenAI 降低了 GPT-4o 实时 API 的价格,输入价格降低了 60%(降至 40 美元/100 万词元),输出价格降低了 87.5%(降至 2.50 美元/100 万词元)。GPT-4o mini 现在也可以通过实时方式使用。
语音代理市场在 2024 年下半年爆发式增长。一个数据点:根据 Cartesia 的数据,使用语音构建的公司占最近 YC 班级的 22%。
语音代理也正在作为一种功能添加到更通用型或多模态的产品中。
在 2024 年,我们看到对话语音堆栈的多个层次的公司都吸引了资金和关注,包括:
模型公司,如 ElevenLabs 和 Cartesia
垂直平台,如 HappyRobot 和 Wayfaster
特别是对于大型企业,我们很少看到立即从完全人工接听电话转变为完全由 AI 接听。相反,创始人会找到一个“突破口”,开始接管客户的一小部分电话——这部分业务(希望)可以随着时间的推移扩展到处理更多的呼叫类型和工作流程。我们看到的突破口包括:
语音代理最自然的早期类别通常具有较高的现有呼叫中心/BPO 支出。如果电话由本地员工作为其标准工作的一部分接听:(1)除非有大量员工专门负责接听/拨打电话,否则痛点/收益通常不够明显;(2)难以量化结果/节省的成本,并证明其价值。
这些主要垂直领域(金融服务、B2C、B2B、政府和医疗保健)很可能像拥有各自的记录系统一样,拥有自己的核心供应商。
我们预计在以下类别中会看到重要的创始人活动(如果您正在该领域进行开发,欢迎与我们联系!):
金融服务 – 例如债务催收
保险 – 面向客户和后台
政府
支持服务 – 包括需要专业知识的更复杂的客户服务电话(如 IT 帮助)
在传统的呼叫中心应用之外,我们已经看到人们愿意为教练或培训用例的 AI 语音代理付费,主要针对高薪工作。在这些行业中,逼真的语音代理本质上可以充当“模拟器”,以显着提高在职绩效。这可以取代劳动力支出(例如销售教练)或效率较低的软件。
为了了解早期创始人的关注领域,我们分析了 YC 的公司数据。
自 2020 年以来,已有 90 家语音代理公司。随着每个新批次的加入,这种情况正在加速——其中 10 个在 W25 批次中,尚未完全宣布。在 2023 年之前的批次中,语音代理主要是过去一年中转向该领域的公司。
构建语音代理的 YC 创始人主要集中在 B2B (~69%) 和以医疗保健为重点 (~18%) 的用例中,其次是消费者 (~13%)。
在 B2B 中,最常见的子行业是:金融科技 (16.9%) 和运营 (12.4%)——主要是客户支持。在医疗保健领域,语音代理主要应用于前台(面向患者)或后台(面向药房、保险公司等),细分领域包括:普通内科 (11.2%)、牙科 (3.4%)、兽医 (2.2%) 和物理治疗 (1.1%)。
这些是 a16z 的投资组合公司。a16z 的投资清单可在此处获得。
鉴于其复杂性(与人进行全面面试)和敏感性(保持良好的候选人体验),工作面试似乎是语音代理的一个不明显的早期用例。然而,我们已经看到这里的一些初创公司获得了显著的早期吸引力——以下是来自客户的一些见解:
在人员配置(43 家上市公司,年收入 6500 亿美元)中,痛点尤其强烈——这些职位通常数量较大,技能要求为中低水平(不太可能是早期初创公司寻求的那种顶尖工程师)。AI 面试可以轻松取代筛选电话,甚至更多流程。这是因为:
候选人更愿意“跳过障碍”,其中可能包括与 AI 面试
客户按他们推荐的候选人数量或最终雇主雇用的数量获得报酬——数量越多越好,因为这允许他们发送更多候选人或更好的候选人
“我们现在发送的候选人中,大约有 90% 进入第一轮[与雇主],75-80% 进入最后一轮。在采用 [AI 语音面试初创公司] 的解决方案之前,我们的成功率只有一半。” —为财富 100 强提供服务的招聘机构
许多 AI 面试产品的表现已经达到或超过了人类招聘人员的水平,原因如下:
候选人可以尽快或随时面试
评估是一致的,如果标准发生变化,客户可以对过去的面试重新运行
双方都没有语言或口音问题
与普通招聘人员相比,AI 通常能够更好地评估技术或特定职位的答案
"相比于人类面试官,受访者往往更容易对 AI 建立信任。因为招聘人员可能缺乏专业经验去理解受访者的回答,而 AI 可以从系统中读取信息,给出更智能、更相关的回复。" —年收入 2 亿美元的招聘机构