当前位置：首页 > 关于智慧芽 > 最新动态

如何更精准的查找到专利数据，干货分享(1)

智慧芽 | 2022-04-14 |

　　在日常的检索分析工作中，经常会遇到检索结果中有很多不相关的文献;同一申请人的名称不统一、有多种形式 ;想要分析最贴近研发实际的技术分支，却没有现成的相关维度等等问题。正是因为检索结果中存在着众多问题，所以检索结果不能直接拿来做分析，需要对检索结果进行清洗和处理，通过修正后的结果进行分析，分析更准确、更精准。

　　常见的清洗手段主要有四个：去噪、去重、规范以及标引。本文主要针对去噪进行详细的讲解，其它的清洗步骤将在后续内容中为您介绍。

　　去噪，即排除不相关的文献，提高分析样本的纯度，可以通过人工的方式单篇去噪，也可以寻找到规律噪音源进行快速的批量去噪。

　　人工和批量结合去噪

　　数据清洗时一般先去噪，通过人工和批量相结合，先批量后人工，批量去噪可以从任何一个检索字段入手，常用的去噪维度有申请人、分类号和关键词。

　　 <strong><a style= 专利数据" alt="专利数据" width="499" height="235"/>

　　筛选出相关文献，按照申请日等非相关度进行排序，使噪音源随机分布。浏览筛选的文献，浏览的过程采用表格视图和图文视图两种方式相结合来确定噪音源，修正检索式。

　　"噪音关键词"可以采用人工阅读的方式确定，还可以采用文本聚类的方式进行确定。

　　文本聚类方式去噪

　　智慧芽专利数据库的3D专利地图和智慧芽英策(Insights)都涉及文本聚类，但两者聚类的方式略有不同。将前述的检索结果保存到工作空间，待后续找到噪音文献，再进行逻辑运算，实现去噪。

　　3D专利地图方式

　　3D专利地图的文本聚类，是将语义相似度较高的专利文献聚集在一起，根据聚类后的专利标题、摘要、权利要求中的关键短语作为标签进行展示，地图上的高峰低谷代表了文献量的多少。

　　在专利地图上寻找到噪音关键词，查看相关文献，将噪音文献保存到工作空间的文件夹中。同时，将该文件夹与前述保存检索结果的文件夹进行逻辑运算，剔除掉噪音文献。

专利数据

　　英策方式

　　英策的文本聚类，是将该技术领域内最热门的技术主题词聚集在一起，提取了该技术领域中最近5,000条专利标题和摘要中最常见的关键词进行展示，词汇的大小代表相关文献的数量多少。

　　在英策的技术全景报告-创新词云中寻找到噪音关键词，查看相关文献，将噪音文献保存到工作空间的文件夹中。同时，将该文件夹与前述保存检索结果的文件夹进行逻辑运算，剔除掉噪音文献。

专利数据　　

热门关键词：专利专利查询专利检索专利查询工具专利检索平台专利数据库中国专利查询知识产权专利网站专利分析报告专利数据库最新专利专利布局

上一篇：10大案例，揭露商业秘密合规管理与保护

下一篇： Alnylam旗下RNAi疗法Zilebesiran 2期临床试验达主要终点

立即体验

微信咨询

了解产品咨询报价

电话咨询

欢迎拨打电话咨询

400-694-4481

小程序