*姓名
*邮箱
*手机号
*验证码
*公司全称
*职位
我已阅读并同意 《服务条款》 与 《隐私政策》
Eureka-知识产权类
Eureka-研发类
Eureka-生物医药类
Eureka-材料类
专利数据库
新药情报库
生物序列数据库
化学结构数据库
数据开放平台
业界首个定量评估LLMs和AI Agents在真实专利工作场景中的基准测试
NEW
科学严谨的方法论设计
专利工作具有高度的专业壁垒,横跨法律、技术和商业三大交叉领域
数百上千个测试样本需要满足统计学要求,能反映现实世界的专利低于分布、专利局分布和行业分布等特征
合理、合适的评估指标高度依赖专家经验,使指标能够客观反映在真实任务中的专业需求
所有基准测试的样本、数据集和指标等一经发布即保持公开透明
科学严谨的方法论设计,更懂专业场景
专利工作专业壁垒高
各地区专利局法规差异大、变化快
专利检索无标准答案
通用的基准测试方法不适用
系统性基准测试的方法论
定量评估AI工具表现
方法论适用于专利检索、专利撰写等多场景
根据不同细分场景设计详细的基准测试
设计
构建
确定
明确
查新检索
FTO检索
无效检索
专利撰写
专利翻译
......
2025年8月最新测试报告新鲜出炉,数据集公开
200%+
在Top100返回结果中,命中X文献的测试样本的比例
在Top100返回结果中,命中的X文献数量占所有X文献数量的比例
89组
第一步
选择一个至少向四个主要专利局(包括美国、欧洲、中国和世界知识产权组织等)申请的专利族,并从中进一步筛选权利要求完全一致的专利族
此为“测试问题”
第二步
收集每个专利族在各地区专利局的审查员审查意见中公开的X文献
第三步
将所有这些X文献集合为一个“X文献全集” (拓展至专利族)
此为“标准答案”
过去一段时间里,智慧芽在专利和研发场景的AI工具上做了很多探索,我们已经开发了几十款AI
Agnets工具,我们相信这些工具可以帮助企业专利人士、审查员、律所、代理所以及企业的研发决策者、工程师找到创新洞察,提供工作效率。当然,大家都会问一个问题,通用人工智能也能解决一些问题,如何选择这些AI工具,为什么要选择垂直领域的AI工具?如何对比不同工具的效率和能力?
今天,智慧芽创新研究中心和专业评测团队共同打造了面向全球的PatentBench,是业内首个定量评估LLMs和AI
Agents在真实专利工作场景中的基准测试方法论,这一方法论将能够覆盖不同专业细分场景中工具的基准测试,从而给出一个关于AI工具效率和能力的“答案”。
我们期待这一答案无限接近真实工作场景,能更加客观、直观地看到AI工具如何帮助企业将本增效;我们更期待更多业内人士能一起到基准测试中来,打造AI赋能的未来。
智慧芽创始人兼CEO
基准测试方法论发布
业界首个定量评估LLMs和AI Agents在真实专利工作场景中的基准测试智慧芽发布PatentBench基准测试方法论,用于定量评估大语言模型(LLMs)和AI Agents等AI工具在不同专利工作场景中执行任务时的表现。
通过对专利数据、文献数据等大数据的深刻理解,对AI大模型底座、AI中台能力和AI Agents等技术和应用的充分认知,以及对知识产权专业人士实际工作场景中核心痛点的精准洞察,智慧芽设计了业界首个针对真实专利工作场景的AI工具评测基准,旨在帮助专利人士进一步了解和衡量AI工具给予专利工作的价值作用,也为专利领域AI工具的发展提供一个科学、严谨、定量的评估标准,期待AI能够更好地赋能专利行业发展。
随着大语言模型(LLMs)和AI Agents等的蓬勃发展,专利人士开始在其日常工作场景中积极采用各类AI工具。然而,哪些AI工具好用?AI工具到底能为专利工作带来多少效率和价值上的提升?目前,准确且客观地评估AI工具在真实专利工作场景中的实际能力仍存在困难。
为何如此困难?因为,通用的基准测试方法并不适用。专利工作具有高度的专业壁垒,横跨法律、技术和商业三大交叉领域。然而,通用基准测试方法难以捕捉到权利要求中专业人士看重的微妙差异,也不熟悉各地区专利局之间迥异且不断变化的专利法规,更缺乏在专利检索等具体任务中贴合真实需求的评估标准。
因此,智慧芽打造业界首个在真实专利工作场景中评估AI工具实际能力的基准测试方法论。该系列方法论高度模拟了专业人士日常需要处理专利相关工作的真实场景,专业人士包括企业IPR(知识产权人员)、专利代理师、专利律师、专利审查员以及研发管理者和研发工程师等。
希望通过这一基准测试方法论,建立统一的专业标准,从而定量评估在专利工作场景中AI工具的实际产出、评估AI工具的性能,并实现AI工具之间的横向比较。
PatentBench基准测试方法论专门用于定量评估大语言模型(LLMs)和AI Agents等AI工具在不同专利工作场景中任务执行的表现,适用于专利检索、专利撰写、专利翻译等大部分任务类型,是一个系统性的基准测试方法论体系。
不同专利任务具有不同的专业性要求,难以使用统一的评估标准来进行基准测试。因此,智慧芽将在PatentBench基准测试方法论的基础上,针对特定类型的专业任务设计相应的评测基准,包括但不限于查新检索评测基准、FTO检索评测基准、交底书撰写评测基准、专利翻译评测基准等(如图所示)。
未来将覆盖绝大部分专利工作场景
查新检索
FTO检索
无效检索
专利撰写
专利翻译
......
首期推出“PatentBench-查新检索”的评测基准,并公布智慧芽“查新检索AI Agent”在该基准下的测试结果。基准测试结果显示,与ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)等强大的通用AI工具相比,智慧芽“查新检索AI Agent”能返回所有真实存在的专利文件,不存在幻觉,其核心评估指标“X检出率”和“X召回率”更是达到了通用AI工具的2-3倍。
PatentBench方法论包括四个维度:测试样本、数据集、评估指标和对比对象。所有评测基准都将基于此框架进行针对性设计,以无限接近现实世界的复杂程度。
1) 数测试样本:找到“基准值”
任何一个测试样本都代表一个基准测试中最小的单元,包含待测试的“问题”及其“标准答案”(如图所示)。对于多数专利工作任务而言,并不存在立等可取的“标准答案”——即“基准值”。例如,不存在用于判定专利新创性的完整“X文献”清单,也不存在与某项权利要求完全匹配的完美专利说明书。
因此,设计测试样本的本质和难点在于定义恰当的“测试问题”,并构建尽可能接近理想状态的“标准答案”,高度依赖于领域专家对于“测试问题”的选择和“标准答案”的判定。
测试样本1:
测试问题 +
标准答案
2) 数据集:构建客观且未被污染的测试“数据集”
评测基准需要具备统计上的显著性。针对特定专利工作任务的数据集均需包含近百至近千个测试样本(如图所示),这些测试样本需要按照统计学要求精心筛选,以反映现实世界中的地域分布特征、专利局分布特征和行业分布特征等。同时应尽量选择较新时间段内的测试样本,以避免数据被纳入大语言模型的预训练中。
测试样本1:
测试问题 +
标准答案
测试样本2:
测试问题 +
标准答案
测试样本3:
测试问题 +
标准答案
测试样本N:
测试问题 +
标准答案
3) 评估指标:评测基准的核心
评估指标是评测基准的核心,用于精准区分结果优劣并量化其程度,可以是单一指标,也可以是多个指标的组合。设计合理、合适的评估指标高度依赖相关资深专家在专业领域中多年积攒的经验,从而确保该指标能够客观反映在真实任务中的专业需求。
每一类或者每一个专利任务都可能有不同的评估指标。如针对专利查新检索任务,“PatentBench-查新检索”评测基准使用了X检出率和X召回率两大指标。
在返回的结果中,前1位、前3位、前5位……出现了“标准答案”的测试样本数量占比
在前100位返回的结果中,找到的测试样本“标准答案”的数量占比
4)对比对象:广泛对比AI工具和行业专家
AI工具的目标是辅助和解放人类专家。因此,它需要与人类专家进行背靠背对比测试,以衡量AI达到人类水平的程度。现阶段,通过与各类AI工具进行横向比较——包括专业领域AI Agents与通用大语言模型(LLMs)等,建立基线,从而获得对AI工具实际能力的对比认知。
智慧芽构建PatentBench基准测试方法论的初衷是为知识产权行业提供坚实的基础设施,共同面对汹涌而来的AI浪潮。“PatentBench-查新检索”是我们在此框架下发布的首个评测基准,我们也将持续发布针对其他重要专利工作场景的评测基准。
所有PatentBench评测基准一经发布即保持透明,数据集公开且指标明确。所使用的全部数据集将发布于ArXiv/GitHub平台。
在专利领域,智慧芽针对真实专利工作场景设计并发布了PatentBench基准测试方法论。未来,智慧芽将进一步拓展评测体系:一方面,向研发信息场景延伸,构建针对各类AI工具的评测基准;另一方面,深入生物医药和材料领域,持续推出相关领域的评测基准。
欢迎任何有兴趣将这些方法论及数据集应用于其他AI工具的研究者自行开展测试,也非常欢迎与智慧芽测试团队进行进一步探讨。
一项研究:AI工具的查新检索基准测试
2025 年 8 月本研究针对真实专利工作场景下的查新检索任务设计“PatentBench-查新检索”评测基准,并对智慧芽“查新检索AI Agent”、ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)三个AI工具开展了查新检索能力的基准测试。
在该测试中,智慧芽使用一个由近百组测试样本组成的测试数据集,数据集中的每一组测试样本均包含一个待测试的“问题”及其“标准答案”——即X文献在不同专利局的同族合集,用以无限逼近现实世界中专利查新检索的终极答案。
测试结果显示,智慧芽“查新检索AI Agent”在Top100返回结果中的“X检出率”和“X查全率”分别达到76%和32%,显著高于两大通用AI工具。实证表明,智慧芽“查新检索AI Agent”能帮助专利专业人士大幅提升查新效率,降低时间与人力成本,进一步揭示了专业领域AI工具在专利垂直场景中的变革潜力。
查新检索是专利工作的核心场景之一,是指针对某项技术方案或者专利申请,系统检索全球现有技术,以判断其是否具备专利法要求的“新颖性”和“创造性”的专业检索过程。
查新检索贯穿技术创新的全生命周期,包括但不限于研发立项、专利申请前、专利审查等主要场景。例如,在研发立项阶段,研发人员需要基于查新检索的结果,进行技术研发方向和可行性的评估;在专利申请前阶段,企业专利人员或专利代理人需要对待申请的专利文件进行查新检索,以确保其获得授权;在专利审查阶段,专利审查员则用以判断专利申请的新颖性和创造性。
本测试设计了“PatentBench-查新检索”的评测基准和四个关键实施步骤:
1) 设计测试样本
查新检索需要真正客观的“度量衡”,我们基于跨受理局并行审查的国际同族专利构建了方法论根植于全球专利审查实践核心的高质量评测数据集。首先围绕候选同族的权利要求文本可比性进行初筛,借助自研的权利要求一致性比对模型对各同族权利要求文本进行语义对齐与技术相似度评估,结合二轮精筛保证权利要求文本的一致性以此消除语言表述差异带来的“噪音”。
随后,以各受理局审查员在判断新颖性与创造性时实际引用的关键X、Y类对比文献作为评测的“基准答案”,并对该类文献进行去重与标引规范化整合,统一文献标识与引用口径及所属受理局,形成一致且可复用的参考集合,用于后续评测与对照。
整个构建过程遵循最小披露原则,并设置必要的质控与一致性校核,确保样本的代表性、稳定性、分布合理性与公允性。
2) 构建数据集
本次测试精选了共89个满足上述要求的测试样本,作为第一批用于查新检索基准测试的数据集。同时,为了让测试数据集能够真实模拟现实中的查新检索场景,本次测试也对测试样本的文本语言和IPC分类号分布进行了样本控制。89个测试样本中,38.2%为中文文本,61.8%为英文文本,在IPC分类号上也做到了均匀分布。
3) 定义评估指标
查新检索的本质在于找到全部的潜在X文献,进而回答“是否具备新颖性和创造性”的问题。“PatentBench-查新检索”采用两个关键评估指标——“X检出率”与“X查全率”,用于评估AI工具的查新检索能力。
指标1:X检出率
“X检出率”旨在衡量AI工具能否检索到X文献的能力。“X检出率”在专利审查阶段尤为关键,审查员只需要找到少量X文献即可快速判定某件专利申请是否缺乏“新创性”。
在针对每个样本的测试中,若在TopK返回结果中,命中了“X文献全集”中的任一X文献,则记为“1”,未命中记为“0”,命中了X文献的测试样本数量的比例即为“X检出率”。TopK可以是前100位,也可以是前5位,甚至是前1位,用不同的TopK计算得出的“X检出率”,可以反映在不同时间效率要求下AI工具的查新检索表现。
在返回的结果中,前1位、前3位、前5位……出现了“标准答案”的测试样本数量占比
指标2:X查全率
“X查全率”旨在衡量AI工具能否检索到尽可能多的X文献的能力。“X查全率”在研发立项阶段和专利申请前阶段至关重要,无论是企业研发人员、专利人员还是外部专利代理师,都需要尽可能全面地找到X文献,以指导技术方案的调整、权利要求书的撰写,从而提高专利授权率。
在整个测试数据集中,Top100返回结果中命中的X文献数量占所有测试样本中的X文献总数量的比例,即为“X查全率”。
在前100位返回的结果中,找到的测试样本“标准答案”的数量占比
在“X检出率”和“X查全率”的计算中,本研究均以Top100返回结果作为评估范围。该范围既不会因检索结果过少而遗漏重要现有技术,也不会因检索结果过多而超出人工处理能力范围,符合人工进行专利查新检索的典型习惯。
4) 选择对比对象
本研究针对智慧芽“查新检索AI Agent”进行基准测试,并选择ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)两款AI工具作为测试基线。
智慧芽查新检索Agent是一个专为专利查新检索场景开发的AI智能体,仅需输入技术方案文本,即可自动完成全部检索过程并生成查新报告。ChatGPT-o3和DeepSeek-R1是当下主流的通用大语言模型(LLMs),因其卓越的推理性能和媲美人类的思维链路被广泛应用于各类工作场景。
基准测试结果显示:智慧芽“查新检索AI Agent”在Top100返回结果中的“X检出率”和“X查全率”分别达到76%和32%,显著高于两大通用AI工具。
1) X检出率表现
智慧芽查新检索AI Agent的“X检出率”高达76%,是另外两款通用AI工具的2倍以上,ChatGPT-o3(联网搜索版)为32%、DeepSeek-R1(联网搜索版)为9%。这意味着,所有89个测试样本中,智慧芽在其中四分之三的测试样本中都找到了至少1个X文献。
这种高“X检出率”在专利审查阶段尤为关键。当专利审查人员仅需一个证据即可快速做出判断时,智慧芽查新检索AI Agent能够显著加速检索过程,提高专利审查效率。此外,高“X检出率”也可以为技术研发方向的“早期筛查”提供参考建议。
在Top100返回结果中,命中X文献的测试样本的比例
2) X查全率表现
智慧芽查新检索AI Agent的“X查全率”为32%,甚至达到了另外两款通用AI工具的3倍以上,ChatGPT-o3(联网搜索版)为11%,DeepSeek-R1(联网搜索版)为3%。这表明,在Top100返回结果中,智慧芽的Agent已能发现32%的正确答案,若结合后续人类专家的筛选,X文献检索结果将更加完整。
高“X查全率”对研发立项阶段和专利申请前阶段至关重要。无论是企业研发人员、专利人员还是外部专利代理师,都可以使用智慧芽查新检索AI Agent尽可能多地找到X文献,以指导技术方案的调整、权利要求书的撰写,从而提高专利授权率。
在Top100返回结果中,命中的X文献数量占所有X文献数量的比例
3) 举例说明:一个典型样本是如何进行基准测试的?
这里用一个典型样本来形象展示智慧芽查新检索AI Agent、ChatGPT-o3(联网搜索版)、DeepSeek-R1(联网搜索版)三个AI工具在查新检索基准测试中的表现,方便大家理解。当然,在系统性的基准测试中,不是一个样本,而可能是数百个样本,需要更多,更客观和科学的样本数据集来对工具进行评测。
这个典型样本是如何测试的?该样本的“测试问题”和“标准答案”均如下图所示,其中“标准答案”是图中的5个专利族。我们将“测试问题”(即专利的说明书文本)输入各项AI工具,并使用“标准答案”(即“X文献全集”)来评估AI查新检索的结果质量。
结果显示,在智慧芽查新检索Agent的测试结果中,Top100返回的结果精准命中了3个“标准答案”,在5个专利族中命中3个,对应的X检出率和X查全率分别为100%和60%。ChatGPT-o3(联网搜索版)和DeepSeek-R1(联网搜索版)都命中了1个“标准答案”,因此,X检出率都为100%,但仅仅命中了1个“标准答案”,X查全率只有20%,在找到更多X文献的表现上不甚理想。
综上表明,尽管通用大语言模型(LLMs)具备强大的泛化推理能力,但在专利查新检索这类高度专业化任务中仍存在显著局限。专业领域AI工具的针对性发展,在专利垂直场景中展现出不可替代的必要性与应用价值。
本研究测试的89个测试样本仅为本次第一批公开的测试数据集。在未来的查新检索基准测试中,将持续扩充测试样本数量,开展更大规模的基准测试研究,不断迭代完善测试结果,以求展示一个更加真实客观的AI工具查新检索能力评估。
在实际应用中,检索质量(包含X检出率和X查全率)虽然重要,但并非专业人士对于评估工具效率的唯一标准。专业人员在开展查新检索工作时,不仅追求更高的检索质量,同时需要兼顾时间效率和成本效益。
是为了追求更高的效率而在发现关键X文献时即停止检索,还是为了降低遗漏风险而进行深入全面的挖掘?是选择在公司内部耗费数日完成检索工作,还是通过有偿外包给专业律师来获得更专业的服务?这些都是实践中需要做出的重要决策。
智慧芽查新检索AI Agent之所以能够达到上述基准测试结果的高水平,源于其垂直领域模型微调和RAG技术。该Agent对基础开源大模型进行了系统化的专利领域专业知识微调,确保模型能够深度理解专利技术语言和检索逻辑。在此基础上,Agent采用检索增强生成(RAG)技术执行高质量的检索工作,将实时检索能力与生成能力有机结合。通过这种技术组合,智慧芽Agent能够准确捕获文本中的关键技术特征,实施精密的检索策略,并提供低幻觉的可靠结果,从而在专业查新检索任务中展现出显著优于通用大模型的性能优势。
基于上述优势,对于在企业或专利代理机构从事专利申请相关工作的知识产权专业人士来说,智慧芽查新检索AI Agent是一款能在保持准确性的同时成倍提高新颖性检索效率的工具。通过在几分钟内完成传统需要数小时的搜索、筛选和排序工作,专业人士可以将精力集中在更高价值的分析和决策上,实现从“3天重复性检索工作”到“3小时高质量分析工作”的效率跃升。
此外,对于正在进行项目预研立项的企业研发团队而言,“查新检索AI Agent”可能是一个革命性的解决方案,通过在早期阶段进行高效的查新检索,从而显著降低缺乏新颖性的风险,并最大限度地减少研发资源的潜在浪费,为研发工作流带来巨大的转变。
立即体验
微信咨询
了解产品 咨询报价
电话咨询
欢迎拨打电话咨询
AI让创新情报触手可及,找到信息情报的时间缩短50%
检索分析报告,专利简报,FTO报告,研发技术简报
决策者更快掌握研发决策所需信息,决策流程更简单
创新信息获取和使用更快,组织研发效率更快
*姓名
*邮箱
*手机号
*验证码
*公司全称
*职位
我已阅读并同意 《服务条款》 与 《隐私政策》