{{item.label}}

用去噪法清洗检索结果

清洗方法 转载:www.zaoge.com 306人看过 2023-02-03 12:06:37
清洗方法

在日常的检索分析中,大家经常会在检索结果中遇到很多不相关的文件。正是因为检索结果中存在很多问题,所以检索结果不能直接用于分析,需要对检索结果进行清理和处理,通过对修改后的结果进行分析,使得分析更加准确。常用的清洗方法有四种:去噪法、去重法、标准化法和分度法。

去噪法,即排除不相关的文献,提高分析样本的纯度,可以通过人工的方式单篇去噪,也可以寻找到噪音源设备进行快速的批量去噪。

1.人工和批量去噪。 

数据清洗一般先去噪,通过人工和批量相结合,先批量后人工。 

根据申请日期等筛选出相关文献并进行排序,使噪声源随机分布。浏览过滤后的文献,浏览过程采用表格视图和图形视图相结合的方式,确定噪声源,修改检索类型。

“噪声关键字”可以通过人工阅读识别,也可以通过文本聚类识别。

2.文本聚类去噪。 

用去噪法清洗检索结果

3D专利地图和专利数据库Insights都涉及文本聚类,只是聚类方法略有不同。将上述检索结果保存到工作区,找到噪声文献后再进行逻辑运算,实现去噪。

(1)3D专利地图方式。 

3D专利地图的文本聚类,是将语义结构相似度较高的专利文献聚集在一起,根据聚类后的专利标题、摘要、权利要求中的关键词作为标签进行展示,地图上的高峰低谷代表了文献量的多少。

在专利地图上检索噪音关键字,查看相关文献,并将噪音文献保存在工作区文件夹中。同时,对检索结果的文件夹进行逻辑计算,以消除文献噪声。

(2)英策方式。 

英策的文本聚类,是将该技术领域内最热门的技术主题词聚集在一起,提取了该技术领域中最近5,000条专利标题和摘要中最常见的关键词进行展示,词汇的大小代表了相关文献的数量。

 在英策的技术全景报告--创新词云中寻找到噪音关键词,查看相关文献,并将噪音文献保存在工作区文件夹中。同时,对检索结果的文件夹进行逻辑计算,以消除文献噪声。

声明:该作品系作者结合法律法规、政府官网及互联网相关知识整合。如若侵权请及时与我们联系,我们将按照规定及时处理。
上一篇:注册商标总共要花多少钱 下一篇:国外网站的注册步骤和注册优势
一对一专人服务,立刻解决您的需求
更快速|更准确|更全面
廖伊一 早鸽金牌顾问
全球商标注册、专利申请、版权登记,多年从业经验,用专业去服务
从业年限:
6 年
服务人数:
696
服务评分:
4.4
咨询TA
评论 5条