一项研究:AI工具的查新检索基准测试

2025 年 8 月

概述

本研究针对真实专利工作场景下的查新检索任务设计“PatentBench-查新检索”评测基准,并对智慧芽“查新检索AI Agent”、ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)三个AI工具开展了查新检索能力的基准测试。

在该测试中,智慧芽使用一个由近百组测试样本组成的测试数据集,数据集中的每一组测试样本均包含一个待测试的“问题”及其“标准答案”——即X文献在不同专利局的同族合集,用以无限逼近现实世界中专利查新检索的终极答案。

测试结果显示,智慧芽“查新检索AI Agent”在Top100返回结果中的“X检出率”和“X查全率”分别达到76%和32%,显著高于两大通用AI工具。实证表明,智慧芽“查新检索AI Agent”能帮助专利专业人士大幅提升查新效率,降低时间与人力成本,进一步揭示了专业领域AI工具在专利垂直场景中的变革潜力。

什么是专利查新检索?

查新检索是专利工作的核心场景之一,是指针对某项技术方案或者专利申请,系统检索全球现有技术,以判断其是否具备专利法要求的“新颖性”和“创造性”的专业检索过程。

查新检索贯穿技术创新的全生命周期,包括但不限于研发立项、专利申请前、专利审查等主要场景。例如,在研发立项阶段,研发人员需要基于查新检索的结果,进行技术研发方向和可行性的评估;在专利申请前阶段,企业专利人员或专利代理人需要对待申请的专利文件进行查新检索,以确保其获得授权;在专利审查阶段,专利审查员则用以判断专利申请的新颖性和创造性。

如何进行查新检索基准测试?

本测试设计了“PatentBench-查新检索”的评测基准和四个关键实施步骤:

查新检索需要真正客观的“度量衡”,我们基于跨受理局并行审查的国际同族专利构建了方法论根植于全球专利审查实践核心的高质量评测数据集。首先围绕候选同族的权利要求文本可比性进行初筛,借助自研的权利要求一致性比对模型对各同族权利要求文本进行语义对齐与技术相似度评估,结合二轮精筛保证权利要求文本的一致性以此消除语言表述差异带来的“噪音”。

随后,以各受理局审查员在判断新颖性与创造性时实际引用的关键X、Y类对比文献作为评测的“基准答案”,并对该类文献进行去重与标引规范化整合,统一文献标识与引用口径及所属受理局,形成一致且可复用的参考集合,用于后续评测与对照。

整个构建过程遵循最小披露原则,并设置必要的质控与一致性校核,确保样本的代表性、稳定性、分布合理性与公允性。

测试样本

本次测试精选了共89个满足上述要求的测试样本,作为第一批用于查新检索基准测试的数据集。同时,为了让测试数据集能够真实模拟现实中的查新检索场景,本次测试也对测试样本的文本语言和IPC分类号分布进行了样本控制。89个测试样本中,38.2%为中文文本,61.8%为英文文本,在IPC分类号上也做到了均匀分布。

89个测试样本的专利文本语言分布

89个测试样本的IPC分类号分布

查新检索的本质在于找到全部的潜在X文献,进而回答“是否具备新颖性和创造性”的问题。“PatentBench-查新检索”采用两个关键评估指标——“X检出率”与“X查全率”,用于评估AI工具的查新检索能力。

指标1:X检出率
“X检出率”旨在衡量AI工具能否检索到X文献的能力。“X检出率”在专利审查阶段尤为关键,审查员只需要找到少量X文献即可快速判定某件专利申请是否缺乏“新创性”。

在针对每个样本的测试中,若在TopK返回结果中,命中了“X文献全集”中的任一X文献,则记为“1”,未命中记为“0”,命中了X文献的测试样本数量的比例即为“X检出率”。TopK可以是前100位,也可以是前5位,甚至是前1位,用不同的TopK计算得出的“X检出率”,可以反映在不同时间效率要求下AI工具的查新检索表现。

X检出率

在返回的结果中,前1位、前3位、前5位……出现了“标准答案”的测试样本数量占比

指标2:X查全率
“X查全率”旨在衡量AI工具能否检索到尽可能多的X文献的能力。“X查全率”在研发立项阶段和专利申请前阶段至关重要,无论是企业研发人员、专利人员还是外部专利代理师,都需要尽可能全面地找到X文献,以指导技术方案的调整、权利要求书的撰写,从而提高专利授权率。

在整个测试数据集中,Top100返回结果中命中的X文献数量占所有测试样本中的X文献总数量的比例,即为“X查全率”。

X查全率

在前100位返回的结果中,找到的测试样本“标准答案”的数量占比

在“X检出率”和“X查全率”的计算中,本研究均以Top100返回结果作为评估范围。该范围既不会因检索结果过少而遗漏重要现有技术,也不会因检索结果过多而超出人工处理能力范围,符合人工进行专利查新检索的典型习惯。

本研究针对智慧芽“查新检索AI Agent”进行基准测试,并选择ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)两款AI工具作为测试基线。

智慧芽查新检索Agent是一个专为专利查新检索场景开发的AI智能体,仅需输入技术方案文本,即可自动完成全部检索过程并生成查新报告。ChatGPT-o3和DeepSeek-R1是当下主流的通用大语言模型(LLMs),因其卓越的推理性能和媲美人类的思维链路被广泛应用于各类工作场景。

关键结果与发现

基准测试结果显示:智慧芽“查新检索AI Agent”在Top100返回结果中的“X检出率”和“X查全率”分别达到76%和32%,显著高于两大通用AI工具。

智慧芽查新检索AI Agent的“X检出率”高达76%,是另外两款通用AI工具的2倍以上,ChatGPT-o3(联网搜索版)为32%、DeepSeek-R1(联网搜索版)为9%。这意味着,所有89个测试样本中,智慧芽在其中四分之三的测试样本中都找到了至少1个X文献。

这种高“X检出率”在专利审查阶段尤为关键。当专利审查人员仅需一个证据即可快速做出判断时,智慧芽查新检索AI Agent能够显著加速检索过程,提高专利审查效率。此外,高“X检出率”也可以为技术研发方向的“早期筛查”提供参考建议。

X检出率

在Top100返回结果中,命中X文献的测试样本的比例

智慧芽查新检索AI Agent的“X查全率”为32%,甚至达到了另外两款通用AI工具的3倍以上,ChatGPT-o3(联网搜索版)为11%,DeepSeek-R1(联网搜索版)为3%。这表明,在Top100返回结果中,智慧芽的Agent已能发现32%的正确答案,若结合后续人类专家的筛选,X文献检索结果将更加完整。

高“X查全率”对研发立项阶段和专利申请前阶段至关重要。无论是企业研发人员、专利人员还是外部专利代理师,都可以使用智慧芽查新检索AI Agent尽可能多地找到X文献,以指导技术方案的调整、权利要求书的撰写,从而提高专利授权率。

X查全率

在Top100返回结果中,命中的X文献数量占所有X文献数量的比例

这里用一个典型样本来形象展示智慧芽查新检索AI Agent、ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)三个AI工具在查新检索基准测试中的表现,方便大家理解。当然,在系统性的基准测试中,不是一个样本,而可能是数百个样本,需要更多,更客观和科学的样本数据集来对工具进行评测。

这个典型样本是如何测试的?该样本的“测试问题”和“标准答案”均如下图所示,其中“标准答案”是图中的5个专利族。我们将“测试问题”(即专利的说明书文本)输入各项AI工具,并使用“标准答案”(即“X文献全集”)来评估AI查新检索的结果质量。

结果显示,在智慧芽查新检索Agent的测试结果中,Top100返回的结果精准命中了3个“标准答案”,在5个专利族中命中3个,对应的X检出率和X查全率分别为100%和60%。ChatGPT-o3(联网搜索版)和DeepSeek-R1(联网搜索版)都命中了1个“标准答案”,因此,X检出率都为100%,但仅仅命中了1个“标准答案”,X查全率只有20%,在找到更多X文献的表现上不甚理想。

综上表明,尽管通用大语言模型(LLMs)具备强大的泛化推理能力,但在专利查新检索这类高度专业化任务中仍存在显著局限。专业领域AI工具的针对性发展,在专利垂直场景中展现出不可替代的必要性与应用价值。

针对一个测试样本的基准测试

未来研究方向

本研究测试的89个测试样本仅为本次第一批公开的测试数据集。在未来的查新检索基准测试中,将持续扩充测试样本数量,开展更大规模的基准测试研究,不断迭代完善测试结果,以求展示一个更加真实客观的AI工具查新检索能力评估。

在实际应用中,检索质量(包含X检出率和X查全率)虽然重要,但并非专业人士对于评估工具效率的唯一标准。专业人员在开展查新检索工作时,不仅追求更高的检索质量,同时需要兼顾时间效率和成本效益。

是为了追求更高的效率而在发现关键X文献时即停止检索,还是为了降低遗漏风险而进行深入全面的挖掘?是选择在公司内部耗费数日完成检索工作,还是通过有偿外包给专业律师来获得更专业的服务?这些都是实践中需要做出的重要决策。

应用价值与影响

智慧芽查新检索AI Agent之所以能够达到上述基准测试结果的高水平,源于其垂直领域模型微调和RAG技术。该Agent对基础开源大模型进行了系统化的专利领域专业知识微调,确保模型能够深度理解专利技术语言和检索逻辑。在此基础上,Agent采用检索增强生成(RAG)技术执行高质量的检索工作,将实时检索能力与生成能力有机结合。通过这种技术组合,智慧芽Agent能够准确捕获文本中的关键技术特征,实施精密的检索策略,并提供低幻觉的可靠结果,从而在专业查新检索任务中展现出显著优于通用大模型的性能优势。

基于上述优势,对于在企业或专利代理机构从事专利申请相关工作的知识产权专业人士来说,智慧芽查新检索AI Agent是一款能在保持准确性的同时成倍提高新颖性检索效率的工具。通过在几分钟内完成传统需要数小时的搜索、筛选和排序工作,专业人士可以将精力集中在更高价值的分析和决策上,实现从“3天重复性检索工作”到“3小时高质量分析工作”的效率跃升。

此外,对于正在进行项目预研立项的企业研发团队而言,“查新检索AI Agent”可能是一个革命性的解决方案,通过在早期阶段进行高效的查新检索,从而显著降低缺乏新颖性的风险,并最大限度地减少研发资源的潜在浪费,为研发工作流带来巨大的转变。