X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们 | 帮助中心
欢迎来到桂林科技成果交易平台,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
当前位置: 首页 >  科技成果  > 详细页

[00292560]一种针对网页结构变化的不间断爬虫系统构建方法

交易价格: 面议

所属行业: 软件

类型: 发明专利

技术成熟度: 正在研发

专利所属地:中国

专利号:201410190386.7

交易方式: 技术转让 技术转让 技术入股

联系人: 武汉大学

进入空间

所在地:湖北武汉市

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
|
收藏
|

技术详细介绍

本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法,本发明在数据抽取的过程中,并不依赖于具体的标签节点,而是通过计算的方法来寻找目标节点;利用节点剪枝和相似哈希的方法锁定标题节点;然后,迭代计算相关节点的上下文主题相关度值 TTR,得到目标抽取模块的节点;最后,使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取,在库匹配的过程中,使用了库动态增长的方法;同时,在目标抽取节点下的剩余节点中,过滤掉所有噪声节点,便得到网页文本的正文信息;本发明提供的技术方法主要应用于舆情监测系统中,对其他用途的网络爬虫具有一定参考价值。

本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法,本发明在数据抽取的过程中,并不依赖于具体的标签节点,而是通过计算的方法来寻找目标节点;利用节点剪枝和相似哈希的方法锁定标题节点;然后,迭代计算相关节点的上下文主题相关度值 TTR,得到目标抽取模块的节点;最后,使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取,在库匹配的过程中,使用了库动态增长的方法;同时,在目标抽取节点下的剩余节点中,过滤掉所有噪声节点,便得到网页文本的正文信息;本发明提供的技术方法主要应用于舆情监测系统中,对其他用途的网络爬虫具有一定参考价值。

推荐服务:

Copyright © 2017  桂林经济技术开发区管理委员会    桂林经开孵化器管理有限责任公司    All Rights Reserved

桂ICP备17003866号-1

运营商:科易网