• AI对话
  • AI绘画
  • AI办公
  • AI语音
  • AI视频
  • 智能体
  • AI最新资讯
  • 协会动态
  • 图片广场
  • 角色广场
  • AI教育
  • AI商城

AI门户

logo
      首页
    • AI工具
    • AI资讯
    • AI社区
    • AI商业
    • APP
登录

深度研究(Deep Research)的问题

作者 · Benedict Evans来源 · Benedict Evans
浏览 · 45次2025-03-05

OpenAI 的深度研究(Deep Research)工具本应是为我量身定做的,但我却无法使用。它在演示阶段表现惊艳,但实际应用中却出现了问题。不过,它出问题的方式倒是很有意思。

我的主要工作是研究和分析。我会先思考需要哪些数据,然后去寻找;找到数据后,我会进行整理和汇编,制作图表。如果图表效果不理想,我会尝试新的方法,寻找新的数据,以便更好地理解和解释问题。最终,我会撰写报告,用文字和图表来呈现我的分析结果,并与他人进行讨论。

这通常需要大量的体力劳动——每个图表背后都是一座冰山——而 OpenAI 的深度研究(Deep Research)看起来应该是为我量身定做的。那么,它是否真的适合呢?

我可以用一个新问题来测试它,但幸运的是,在浪费时间和积分之前,OpenAI 自己的产品页面上有一个关于我非常了解的主题——智能手机的示例报告。让我们来看看。

Screenshot 2025-02-17 at 4.27.52 pm.png

Screenshot 2025-02-17 at 2.42.07 pm.png

这个表格看起来很棒——机器帮我完成了原本需要数小时才能完成的数据编译工作。然而,在我们把它交给客户之前,让我们先检查几件事。首先,数据来源是什么?

啊。

我们有两个来源:Statista 和 Statcounter。这两个数据源都存在一些问题。Statcounter 采用的是一种有问题的“采用率”(或市场占有率)衡量标准——它衡量的是流量,而且众所周知,不同的设备使用方式不同,高端设备使用更多,而 iPhone 偏向高端,也偏向更多使用。你不能真的用它来衡量这个,就像我会向实习生解释的那样(我经常将 AI 比作实习生)。与此同时,Statista 汇总其他人的数据,确保它在 SEO 中排名靠前,然后试图让你注册或付费才能看到结果。我认为谷歌应该将这家公司从索引中删除,但即使你不同意,说这是来源就像说来源是“谷歌搜索结果”。同样,这是一个实习生级别的问题。

不过,撇开这一点,让我们更深入地研究一下,看看一个数字——日本。深度研究(Deep Research)表示,日本智能手机市场 iOS 占 69%,Android 占 31%。这引出了两个问题:这些来源是这么说的吗?它们是正确的吗?这是两种非常不同的问题。

首先,Statcounter,尽管如上所述高估了 iPhone,但实际上并没有说 69%,或者至少一年多来没有。嗯。

img

如果我们查看 Statista,我们需要经过一番周折,但最终发现实际来源是研究公司 Kantar Worldpanel,它给出的数字与深度研究(Deep Research)声称的几乎完全相反——Android 占 63%,iOS 占 36%。哦。

Screenshot 2025-02-17 at 2.56.32 pm.png

Screenshot 2025-02-17 at 2.24.39 pm.png

我们可以继续分析。Kantar 的数据每月波动高达 20 个百分点,这与装机量的通常变化规律不符。这让我怀疑它实际跟踪的指标。我们也可以去检查其他一些数字,但如果我必须检查表格中的每个数字,那么它并没有为我节省任何时间——我还是自己做吧。而且,顺便说一句,日本监管机构对我们正在寻找的实际数字进行了一项调查,这里(第 25 页),其中指出装机量约为 Android 53%,iOS 47%。啊。

我们对此有何看法?

LLM(大语言模型)不是数据库:它们不进行精确、确定性、可预测的数据检索,将它们当作可以这样检索来测试是无关紧要的。但这并不是我们在这里试图做的——这是一个更复杂、更有趣的测试。

首先,OpenAI 的例子使用了一个不精确的问题:它询问采用率(adoption),但这是什么意思?我们是在询问单位销量、装机量、使用份额,还是应用上的支出份额?这些是不同的东西。你想要哪一个?其次,找到其中任何一个的答案也是不精确的——没有单一的来源可以参考,你需要一些判断或专业知识来决定使用哪个来源——如上所述,你应该选择 Statcounter、Statistica、Kantar 本身,还是其他来源?

也就是说,这些实际上都不是简单的“数据库查询”类型的问题——OpenAI 正在向模型询问一个概率问题,而不是一个确定性问题。但这个问题的答案是确定性的——在弄清楚你真正想要什么,以及选择哪种答案之后,你想要实际的数字。我们正在从一个概率问题中寻求一个确定性的答案,看起来模型确实在这方面失败了。在我看来,或者鉴于我的专业知识,它不应该使用 Statcounter 或 Statistica,但即使应该,它也没有从中获取正确的数字。

这让我想起几年前的一个观点:大语言模型与计算机的优势恰好相反。OpenAI 试图让模型弄清楚你可能的意思(计算机在这方面非常糟糕,但 LLM 擅长),然后让模型进行高度特定的信息检索(计算机擅长这一点,但 LLM 不擅长)。但这并不完全奏效。请记住,这不是我的测试——这是 OpenAI 自己的产品页面。OpenAI 承诺这个产品可以做一些它做不到的事情,至少,不完全是,正如它自己的营销所显示的那样。

在这个阶段,显而易见的反应是说模型会不断改进,但这忽略了重点。你是说今天的模型能把这个表格做对 85%,而下一个版本会做对 85.5% 或 91% 吗?这对我没有帮助。如果表格中有错误,有多少错误并不重要——我不能相信它。另一方面,如果你认为这些模型会 100% 正确,那将改变一切,但这也将是这些系统性质的二元变化,而不是百分比变化,我们甚至不知道这是否可能。

同时,需要明确的是,我关注一个数字是因为这很容易检查和测试,但同样的概念问题适用于十页文本:以大致相同的方式,深度研究(Deep Research)将大部分是正确的,但只是大部分。

更宏观地来看,我写这篇文章的心情其实很复杂,因为我已经多次强调,这类系统虽然强大,但总会在关键问题上出错,所以到目前为止最好的用例是错误率无关紧要或很容易看到的事情。如果只是说这些东西很棒并且一直在变得更好,或者声称错误率意味着这些东西是自 NFT 以来最大的时间和金钱浪费,那就容易多了。但探索困惑,正如我在这里真正做的那样,似乎更有趣。

这些工具的确有用。如果有人要求你提供一份 20 页的报告,而你对该主题有深入的领域专业知识,但你还没有 20 页的内容放在某个文件夹中,那么这将把几天的工作变成几个小时,你可以修复所有的错误。我总是把 AI 称为“无限的实习生”,我刚才写的任何实习生都有很多值得学习的地方,但也有史蒂夫·乔布斯的一句话,计算机是“心灵的自行车”——它可以让你走得更远更快,而且花费的精力更少,但它不能自己去任何地方。

再退一步,我认为这里有两个潜在的问题。

1. 无法消除的错误率

重复一遍,我们不知道错误率是否会消失,所以我们不知道我们是否应该构建假定模型有时会出错的产品,或者在一两年后我们是否会构建假定我们可以单独依赖模型的产品。这与从 PC 到网络再到智能手机等其他重要技术的局限性有很大不同,在这些技术中,我们原则上知道什么可以改变,什么不能改变。我刚才谈到的深度研究(Deep Research)的问题会得到解决吗?这个问题的答案会产生两种不同的产品。

2. 缺乏核心竞争力的商业模式

OpenAI 和所有其他基础模型实验室除了获得资本之外,没有护城河或防御能力,他们在编码和营销之外没有产品与市场契合,而且他们实际上也没有产品,只有文本框——以及供其他人构建产品的 API。深度研究(Deep Research)是众多尝试中的一种,既要创建具有一定粘性的产品,又要实例化一个用例。但一方面,Perplexity 声称在几天后推出了相同的东西,另一方面,今天管理错误率的最佳方法似乎是将 LLM(大语言模型)抽象为可以管理它的软件内部的 API 调用,这当然使基础模型本身更加商品化。这就是事情的最终结果吗?我们不知道。

热门文章

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

版权所有@2023 ​深圳市人工智能产业协会、深圳市宝安区低空无人系统产业协会       技术支持:​深圳市网新新思软件有限公司       粤ICP备19099358号-2       粤公网安备44030502010453号

