智慧芽 PatentBench

概览
PatentBench-查新检索

引言：智能化浪潮下的专利领域变革

在全球化与技术飞速迭代的今天，知识产权，特别是专利，已成为衡量国家创新能力、企业核心竞争力的关键指标。从新药研发到通信标准，从人工智能算法到新材料应用，专利不仅是技术的保护屏障，更是商业博弈中的重要筹码。

传统的专利工作流程——包括检索、分析、撰写、审查和诉讼等——是典型的高门槛、知识密集型和劳动密集型任务。一位资深的专利工程师或律师，需要经过多年的学习和实践，才能精准地把握技术要点、理解法律条款、撰写出高质量的专利文件。

近年来，以大语言模型为代表的人工智能技术取得了突破性进展，其强大的自然语言理解、生成和推理能力，为变革各行各业带来了无限可能。当这股浪潮涌入专利领域时，人们不禁要问：AI能否真正理解复杂的专利文献？能否辅助专利从业者完成高难度的专业任务？AI在专利领域的应用边界在哪里？其能力水平究竟如何？

一、PatentBench评测基准框架和意义

为了科学、系统地回答这些问题，一个权威、全面、专业的评测标准变得至关重要。PatentBench评测基准应运而生。PatentBench评测基准包括“十大专利基础核心能力评测”和“专利任务应用评测”两部分。它不仅仅是一个简单的测试集，它是一项全面、深度、精准地评估专利大模型及专利任务智能体的综合性评测基准。

PatentBench旨在为专利领域的AI大模型和AI 智能体提供一把精准的“度量尺”，既能检验其基础能力，又能评估其在真实世界复杂任务中的应用表现。它的出现，标志着“AI+专利”的发展从概念探索阶段，正式迈向了有标准可依、有方向可循的规模化、专业化发展新阶段。

二、PatentBench评测基准之专利基础核心能力评测

专利工作的本质是对高度专业化文本的处理和理解。因此，一个优秀的专利大模型必须首先具备扎实的底层能力。PatentBench围绕专利领域核心的十大基础能力展开，旨在全面评估大模型在处理专利文本时的“基本功”。

专利十大基础核心能力包含哪些部分，评测的难点和要点在哪里？

1.专利问答能力

评测各类大模型能否准确回答关于特定专利文件、技术领域或专利法律法规的各种问题。问题类型覆盖事实检索型（如“某专利的申请日是哪天？”）、定义解释型（如“什么是‘新颖性宽限期’？”）和深度理解型（如“请解释该专利权利要求3的技术方案如何解决其声称的技术问题？”）。

2.专利解读能力

评测超越简单的问答，要求被评测模型深度剖析专利文献的核心——权利要求书（Claim）和说明书（Description）。该能力评测各类大模型能否准确识别专利的保护范围、提炼发明的核心技术点、梳理技术方案的实施路径。专利解读是所有后续分析的基础。错误的解读将导致“差之毫厘，谬以千里”的严重后果。此项能力是衡量模型是否具备“专业级”理解能力的关键。

3.专利翻译能力

评测评估模型在不同语言（如中、英等）之间翻译专利文献的准确性、专业性和流畅性。重点考察对技术术语、专利术语以及长难句结构的翻译是否精准。专利具有地域性，跨国专利申请和诉讼是常态。高质量的机器翻译不仅能大幅降低成本，更能加速技术信息的流转。PatentBench对翻译的评测，强调的是“信、达、雅”中的“信”与“达”，即忠实于原文且符合目标国专利语言规范。

4.专利抽取能力

评测各类大模型能否从专利文本中确地抽取出关键信息，如技术问题、技术功效等。结构化信息是进行大数据分析、专利地图绘制、技术趋势预测的前提。高效的信息抽取能力，能将海量专利文献转化为可供分析的数据资产。

5.专利考试能力

评测通过模拟各国专利代理师资格考试的真实题目，检验模型对专利法律法规、审查指南及实务知识的掌握程度。这项评测极具挑战性，它直接对标人类专家的准入门槛。如果一个模型能在此项测试中取得高分，意味着它已经内化了海量的专利法条和案例，具备了提供专业咨询的潜力。

6.专利总结能力

评测要求各类大模型为一篇长篇专利文献生成不同类型的总结。例如，为技术人员生成的“一句话技术摘要”，或为律师生成的“核心权利要求摘要”。专利文献复杂，快速获取其核心内容对于决策至关重要。智能总结能帮助用户在几秒钟内判断一篇专利的相关性（Relevance），极大地提升了信息筛选的效率。

7.专利分类能力

评测根据专利的技术内容为其分配正确的分类号。专利分类是专利检索的“导航系统”。准确的分类是确保检索查全率和查准率的基础。智能分类不仅能减轻审查员和代理人的负担，还能提高分类的一致性和准确性。

8.专利撰写能力

评测评估模型辅助专利申请文件内容的撰写能力，特别是技术背景、发明内容以及权利要求的撰写。评测重点在于生成文本的逻辑性、清晰度、合规性以及对保护范围的合理布局。专利撰写是专利工作中“含金量”最高的环节之一。AI的介入，有望将专利工程师从繁琐的格式化写作中解放出来，更专注于发明构思和保护边界的打磨，从而提升专利质量、缩短撰写周期。

9.专利多轮能力

评测在连续的对话中，大模型能否保持对复杂专利话题的上下文理解，并根据用户的追问和反馈，逐步深入、精确化或修正其回答和分析。例如，模拟用户与AI探讨一项发明的多种撰写策略。真实的专利工作场景充满了动态交互。多轮对话能力决定了AI能否成为一个真正有用的“智能助手”，而非一个只能“一问一答”的简单工具。

10.专利推理能力

专利推理能力评测是对大模型认知能力的最高阶测试。要求模型基于给定的专利A和产品B的技术特征，推理判断产品B是否可能落入专利A的保护范围；或者基于专利X和专利Y，判断两者之间是否存在引用、继承或冲突关系。具备强大推理能力的AI，能在专利有效性分析、侵权风险预警、技术路线规划等高级任务中扮演关键角色，真正实现从“信息处理”到“决策支持”的飞跃。

三、PatentBench评测基准之专利任务应用评测

如果说专利基础核心能力评测是“各项体能测试”，那么专利任务应用评测就是“全能实战对抗”。专利任务智能体（Agent）是集成了多种基础能力、面向特定应用场景的复杂AI系统。

PatentBench首期通过构建专利查新、专利防侵权、专利翻译、专利说明书助手和外观防侵权五大核心应用评测的目标任务和评测维度，检验AI在模拟真实工作流中的综合表现。后期，还会快速扩展到更多的专利应用场景进行基准测试。

1.专利查新

目标任务：在发明人提交技术交底书后，进行专利查新（Prior Art Search），判断其是否具备新颖性和创造性，这是专利申请前最关键的一步。

评测维度：

1）专利特征拆解能力：智能体能否像专利工程师一样，将技术交底书中的发明构思，精准地拆解为一系列结构化的技术特征点。

2）专利查新能力：基于拆解出的技术特征，智能体能否构建高效的检索策略，在全球专利和非专利文献中，全面、准确地找到最相关的对比文件。

3）专利特征对比能力：将检索到的对比文件与本发明的技术特征进行逐一比对，清晰地指出哪些特征是现有技术，哪些特征构成了区别技术特征，并初步判断其新颖性和创造性。

2.专利防侵权

目标任务：企业在推出新产品前，进行自由实施分析（FTO, Freedom-to-Operate），评估该产品是否存在侵犯他人有效专利权的风险。

评测维度：

1）侵权专利召回能力：根据新产品的技术方案，智能体能否在海量专利中，最大范围地找出可能构成侵权风险的高度相关专利。这要求极高的检索查全率。

2）侵权专利分析能力：对召回的高度相关专利，智能体能否进行深入的权利要求比对（Claim Charting），即“技术特征-权利要求”一一对应分析，并给出初步判断和分析报告。

3.专利翻译

目标任务：提供满足多国专利局提交要求的、专业级的专利翻译服务。

评测维度：

1）专利翻译能力：这里的翻译能力要求更高，不仅要准确，还要适应不同国家专利审查的“口味”，例如术语使用的偏好、句式结构的规范等。

2）专利语言规范能力：智能体能否在翻译的同时，自动检查并修正译文，使其完全符合目标国专利局的格式要求和语言习惯，例如，避免使用模糊词汇、确保术语一致性、正确使用附图标记等。

4.专利说明书助手

目标任务：根据交底书和权利要求文本深度辅助生成专利说明书内容。

评测维度：

1）专利撰写能力：在接收技术交底书和权利要求后，智能体能否生成逻辑清晰、层次分明、术语准确并满足各受理局法律要求的技术手段、技术功效、实施例等说明书内容初稿。

2）专利语言规范能力：对生成的说明书初稿，进行“核稿”和“纠错”，检查是否存在错误或不合理描述（如形式错误、语法错误、一致性错误，幻觉等），确保权利要求布局合理、保护范围得当。

5.外观防侵权

目标任务：针对产品的外观设计，评估其是否侵犯他人的外观设计专利权。

评测维度：

1）外观侵权图片召回能力：此能力的核心是“以图搜图”。智能体能否基于新产品的图片或设计图，在海量的外观设计专利数据库中，检索出视觉上最相似的设计。

2）侵权图片分析能力：从“一般消费者”的视角，对比新产品与检索到的相似设计，分析两者在整体视觉效果上是否存在实质性差异，并给出侵权风险的判断依据

四、PatentBench的深远影响与未来展望

首先，为技术发展指明了方向。 对于AI研发者而言，PatentBench就像一张清晰的“能力地图”和“任务清单”。他们可以针对性地指导优化模型在特定能力上的表现，开发更贴合实际需求的专利智能体，避免了在通用能力上“内卷”而在专业应用上“偏科”的窘境。

其次，为用户选择提供了依据。 对于广大的专利从业者和企业而言，面对市场上琳琅满目的“AI+专利”产品，PatentBench提供了一个客观、公正的第三方评价体系。用户可以根据评测结果，选择最适合自身需求的工具，降低了试错成本，加速了AI技术的落地应用。

再次，推动整个行业标准的建立。 PatentBench的实践，将促进形成一套关于AI在专利领域应用效果的公认标准。这有助于行业的良性竞争，淘汰能力不足的伪劣产品，激励高质量、真有效的技术创新，最终提升整个专利行业的智能化水平和服务质量。

PatentBench评测基准本身也将不断演进。随着AI技术的发展和专利业务的深化，未来会对更多更全面的专利应用场景进行全面评测。

概述

本研究针对真实专利工作场景下的查新检索任务设计“PatentBench-查新检索”评测基准，并对智慧芽“查新检索AI Agent”、ChatGPT-o3（联网搜索版）、DeepSeek-R1（联网搜索版）三个AI工具开展了查新检索能力的基准测试。

在该测试中，智慧芽使用一个由近百组测试样本组成的测试数据集，数据集中的每一组测试样本均包含一个待测试的“问题”及其“标准答案”——即X文献在不同专利局的同族合集，用以无限逼近现实世界中专利查新检索的终极答案。

测试结果显示，智慧芽“查新检索AI Agent”在Top100返回结果中的“X检出率”和“X查全率”分别达到76%和32%，显著高于两大通用AI工具。实证表明，智慧芽“查新检索AI Agent”能帮助专利专业人士大幅提升查新效率，降低时间与人力成本，进一步揭示了专业领域AI工具在专利垂直场景中的变革潜力。

什么是专利查新检索？

查新检索是专利工作的核心场景之一，是指针对某项技术方案或者专利申请，系统检索全球现有技术，以判断其是否具备专利法要求的“新颖性”和“创造性”的专业检索过程。

查新检索贯穿技术创新的全生命周期，包括但不限于研发立项、专利申请前、专利审查等主要场景。例如，在研发立项阶段，研发人员需要基于查新检索的结果，进行技术研发方向和可行性的评估；在专利申请前阶段，企业专利人员或专利代理人需要对待申请的专利文件进行查新检索，以确保其获得授权；在专利审查阶段，专利审查员则用以判断专利申请的新颖性和创造性。

如何进行查新检索基准测试？

本测试设计了“PatentBench-查新检索”的评测基准和四个关键实施步骤：

1) 设计测试样本

查新检索需要真正客观的“度量衡”，我们基于跨受理局并行审查的国际同族专利构建了方法论根植于全球专利审查实践核心的高质量评测数据集。首先围绕候选同族的权利要求文本可比性进行初筛，借助自研的权利要求一致性比对模型对各同族权利要求文本进行语义对齐与技术相似度评估，结合二轮精筛保证权利要求文本的一致性以此消除语言表述差异带来的“噪音”。

随后，以各受理局审查员在判断新颖性与创造性时实际引用的关键X、Y类对比文献作为评测的“基准答案”，并对该类文献进行去重与标引规范化整合，统一文献标识与引用口径及所属受理局，形成一致且可复用的参考集合，用于后续评测与对照。

整个构建过程遵循最小披露原则，并设置必要的质控与一致性校核，确保样本的代表性、稳定性、分布合理性与公允性。

测试样本

2) 构建数据集

本次测试精选了共89个满足上述要求的测试样本，作为第一批用于查新检索基准测试的数据集。同时，为了让测试数据集能够真实模拟现实中的查新检索场景，本次测试也对测试样本的文本语言和IPC分类号分布进行了样本控制。89个测试样本中，38.2%为中文文本，61.8%为英文文本，在IPC分类号上也做到了均匀分布。

89个测试样本的专利文本语言分布

89个测试样本的IPC分类号分布

3) 定义评估指标

查新检索的本质在于找到全部的潜在X文献，进而回答“是否具备新颖性和创造性”的问题。“PatentBench-查新检索”采用两个关键评估指标——“X检出率”与“X查全率”，用于评估AI工具的查新检索能力。

指标1：X检出率
“X检出率”旨在衡量AI工具能否检索到X文献的能力。“X检出率”在专利审查阶段尤为关键，审查员只需要找到少量X文献即可快速判定某件专利申请是否缺乏“新创性”。

在针对每个样本的测试中，若在TopK返回结果中，命中了“X文献全集”中的任一X文献，则记为“1”，未命中记为“0”，命中了X文献的测试样本数量的比例即为“X检出率”。TopK可以是前100位，也可以是前5位，甚至是前1位，用不同的TopK计算得出的“X检出率”，可以反映在不同时间效率要求下AI工具的查新检索表现。

X检出率

在返回的结果中，前1位、前3位、前5位……出现了“标准答案”的测试样本数量占比

指标2：X查全率
“X查全率”旨在衡量AI工具能否检索到尽可能多的X文献的能力。“X查全率”在研发立项阶段和专利申请前阶段至关重要，无论是企业研发人员、专利人员还是外部专利代理师，都需要尽可能全面地找到X文献，以指导技术方案的调整、权利要求书的撰写，从而提高专利授权率。

在整个测试数据集中，Top100返回结果中命中的X文献数量占所有测试样本中的X文献总数量的比例，即为“X查全率”。

X查全率

在前100位返回的结果中，找到的测试样本“标准答案”的数量占比

在“X检出率”和“X查全率”的计算中，本研究均以Top100返回结果作为评估范围。该范围既不会因检索结果过少而遗漏重要现有技术，也不会因检索结果过多而超出人工处理能力范围，符合人工进行专利查新检索的典型习惯。

4) 选择对比对象

本研究针对智慧芽“查新检索AI Agent”进行基准测试，并选择ChatGPT-o3（联网搜索版）、DeepSeek-R1（联网搜索版）两款AI工具作为测试基线。

智慧芽查新检索Agent是一个专为专利查新检索场景开发的AI智能体，仅需输入技术方案文本，即可自动完成全部检索过程并生成查新报告。ChatGPT-o3和DeepSeek-R1是当下主流的通用大语言模型（LLMs），因其卓越的推理性能和媲美人类的思维链路被广泛应用于各类工作场景。

关键结果与发现

基准测试结果显示：智慧芽“查新检索AI Agent”在Top100返回结果中的“X检出率”和“X查全率”分别达到76%和32%，显著高于两大通用AI工具。

1) X检出率表现

智慧芽查新检索AI Agent的“X检出率”高达76%，是另外两款通用AI工具的2倍以上，ChatGPT-o3（联网搜索版）为32%、DeepSeek-R1（联网搜索版）为9%。这意味着，所有89个测试样本中，智慧芽在其中四分之三的测试样本中都找到了至少1个X文献。

这种高“X检出率”在专利审查阶段尤为关键。当专利审查人员仅需一个证据即可快速做出判断时，智慧芽查新检索AI Agent能够显著加速检索过程，提高专利审查效率。此外，高“X检出率”也可以为技术研发方向的“早期筛查”提供参考建议。

X检出率

在Top100返回结果中，命中X文献的测试样本的比例

2) X查全率表现

智慧芽查新检索AI Agent的“X查全率”为32%，甚至达到了另外两款通用AI工具的3倍以上，ChatGPT-o3（联网搜索版）为11%，DeepSeek-R1（联网搜索版）为3%。这表明，在Top100返回结果中，智慧芽的Agent已能发现32%的正确答案，若结合后续人类专家的筛选，X文献检索结果将更加完整。

高“X查全率”对研发立项阶段和专利申请前阶段至关重要。无论是企业研发人员、专利人员还是外部专利代理师，都可以使用智慧芽查新检索AI Agent尽可能多地找到X文献，以指导技术方案的调整、权利要求书的撰写，从而提高专利授权率。

X查全率

在Top100返回结果中，命中的X文献数量占所有X文献数量的比例

3) 举例说明：一个典型样本是如何进行基准测试的？

这里用一个典型样本来形象展示智慧芽查新检索AI Agent、ChatGPT-o3（联网搜索版）、DeepSeek-R1（联网搜索版）三个AI工具在查新检索基准测试中的表现，方便大家理解。当然，在系统性的基准测试中，不是一个样本，而可能是数百个样本，需要更多，更客观和科学的样本数据集来对工具进行评测。

这个典型样本是如何测试的？该样本的“测试问题”和“标准答案”均如下图所示，其中“标准答案”是图中的5个专利族。我们将“测试问题”（即专利的说明书文本）输入各项AI工具，并使用“标准答案”（即“X文献全集”）来评估AI查新检索的结果质量。

结果显示，在智慧芽查新检索Agent的测试结果中，Top100返回的结果精准命中了3个“标准答案”，在5个专利族中命中3个，对应的X检出率和X查全率分别为100%和60%。ChatGPT-o3（联网搜索版）和DeepSeek-R1（联网搜索版）都命中了1个“标准答案”，因此，X检出率都为100%，但仅仅命中了1个“标准答案”，X查全率只有20%，在找到更多X文献的表现上不甚理想。

综上表明，尽管通用大语言模型（LLMs）具备强大的泛化推理能力，但在专利查新检索这类高度专业化任务中仍存在显著局限。专业领域AI工具的针对性发展，在专利垂直场景中展现出不可替代的必要性与应用价值。

针对一个测试样本的基准测试

未来研究方向

本研究测试的89个测试样本仅为本次第一批公开的测试数据集。在未来的查新检索基准测试中，将持续扩充测试样本数量，开展更大规模的基准测试研究，不断迭代完善测试结果，以求展示一个更加真实客观的AI工具查新检索能力评估。

在实际应用中，检索质量（包含X检出率和X查全率）虽然重要，但并非专业人士对于评估工具效率的唯一标准。专业人员在开展查新检索工作时，不仅追求更高的检索质量，同时需要兼顾时间效率和成本效益。

是为了追求更高的效率而在发现关键X文献时即停止检索，还是为了降低遗漏风险而进行深入全面的挖掘？是选择在公司内部耗费数日完成检索工作，还是通过有偿外包给专业律师来获得更专业的服务？这些都是实践中需要做出的重要决策。

应用价值与影响

智慧芽查新检索AI Agent之所以能够达到上述基准测试结果的高水平，源于其垂直领域模型微调和RAG技术。该Agent对基础开源大模型进行了系统化的专利领域专业知识微调，确保模型能够深度理解专利技术语言和检索逻辑。在此基础上，Agent采用检索增强生成（RAG）技术执行高质量的检索工作，将实时检索能力与生成能力有机结合。通过这种技术组合，智慧芽Agent能够准确捕获文本中的关键技术特征，实施精密的检索策略，并提供低幻觉的可靠结果，从而在专业查新检索任务中展现出显著优于通用大模型的性能优势。

基于上述优势，对于在企业或专利代理机构从事专利申请相关工作的知识产权专业人士来说，智慧芽查新检索AI Agent是一款能在保持准确性的同时成倍提高新颖性检索效率的工具。通过在几分钟内完成传统需要数小时的搜索、筛选和排序工作，专业人士可以将精力集中在更高价值的分析和决策上，实现从“3天重复性检索工作”到“3小时高质量分析工作”的效率跃升。

此外，对于正在进行项目预研立项的企业研发团队而言，“查新检索AI Agent”可能是一个革命性的解决方案，通过在早期阶段进行高效的查新检索，从而显著降低缺乏新颖性的风险，并最大限度地减少研发资源的潜在浪费，为研发工作流带来巨大的转变。

全球领先机构的安全与信任之选

立即体验

微信咨询

了解产品咨询报价

电话咨询

欢迎拨打电话咨询

400-694-4481

小程序

PatentBench评测基准发布

引言：智能化浪潮下的专利领域变革

一、PatentBench评测基准框架和意义

二、PatentBench评测基准之专利基础核心能力评测

三、PatentBench评测基准之专利任务应用评测

四、PatentBench的深远影响与未来展望

概述

什么是专利查新检索？

如何进行查新检索基准测试？

测试样本

89个测试样本的专利文本语言分布

89个测试样本的IPC分类号分布

X检出率

X查全率

关键结果与发现

X检出率

X查全率

针对一个测试样本的基准测试

未来研究方向

应用价值与影响

全球领先机构的安全与信任之选

体验智慧芽AI Agent
获取AI超能力

400-694-4481

更快获得情报

更快生成报告

更快作出决策

更快推动创新

立即体验

PatentBench评测基准发布

引言：智能化浪潮下的专利领域变革

一、PatentBench评测基准框架和意义

二、PatentBench评测基准之专利基础核心能力评测

三、PatentBench评测基准之专利任务应用评测

四、PatentBench的深远影响与未来展望

概述

什么是专利查新检索？

如何进行查新检索基准测试？

测试样本

89个测试样本的专利文本语言分布

89个测试样本的IPC分类号分布

X检出率

X查全率

关键结果与发现

X检出率

X查全率

针对一个测试样本的基准测试

未来研究方向

应用价值与影响

全球领先机构的安全与信任之选

体验智慧芽AI Agent 获取AI超能力

400-694-4481

更快获得情报

更快生成报告

更快作出决策

更快推动创新

立即体验

体验智慧芽AI Agent
获取AI超能力