用去噪法清洗检索结果
转载:www.zaoge.com
306人看过
2023-02-03 12:06:37
清洗方法
在日常的检索分析中,大家经常会在检索结果中遇到很多不相关的文件。正是因为检索结果中存在很多问题,所以检索结果不能直接用于分析,需要对检索结果进行清理和处理,通过对修改后的结果进行分析,使得分析更加准确。常用的清洗方法有四种:去噪法、去重法、标准化法和分度法。
去噪法,即排除不相关的文献,提高分析样本的纯度,可以通过人工的方式单篇去噪,也可以寻找到噪音源设备进行快速的批量去噪。
1.人工和批量去噪。
数据清洗一般先去噪,通过人工和批量相结合,先批量后人工。
根据申请日期等筛选出相关文献并进行排序,使噪声源随机分布。浏览过滤后的文献,浏览过程采用表格视图和图形视图相结合的方式,确定噪声源,修改检索类型。
“噪声关键字”可以通过人工阅读识别,也可以通过文本聚类识别。
2.文本聚类去噪。
3D专利地图和专利数据库Insights都涉及文本聚类,只是聚类方法略有不同。将上述检索结果保存到工作区,找到噪声文献后再进行逻辑运算,实现去噪。
(1)3D专利地图方式。
3D专利地图的文本聚类,是将语义结构相似度较高的专利文献聚集在一起,根据聚类后的专利标题、摘要、权利要求中的关键词作为标签进行展示,地图上的高峰低谷代表了文献量的多少。
在专利地图上检索噪音关键字,查看相关文献,并将噪音文献保存在工作区文件夹中。同时,对检索结果的文件夹进行逻辑计算,以消除文献噪声。
(2)英策方式。
英策的文本聚类,是将该技术领域内最热门的技术主题词聚集在一起,提取了该技术领域中最近5,000条专利标题和摘要中最常见的关键词进行展示,词汇的大小代表了相关文献的数量。
在英策的技术全景报告--创新词云中寻找到噪音关键词,查看相关文献,并将噪音文献保存在工作区文件夹中。同时,对检索结果的文件夹进行逻辑计算,以消除文献噪声。
声明:该作品系作者结合法律法规、政府官网及互联网相关知识整合。如若侵权请及时与我们联系,我们将按照规定及时处理。
上一篇:注册商标总共要花多少钱
下一篇:国外网站的注册步骤和注册优势
一对一专人服务,立刻解决您的需求
更快速|更准确|更全面
廖伊一
早鸽金牌顾问
全球商标注册、专利申请、版权登记,多年从业经验,用专业去服务
从业年限:
6 年
服务人数:
696
服务评分:
4.4
评论
5条
请先 登录 后发表评论~
相关资讯
更多
热门服务
最新问答