1.强大的信息采集功能
系统提供强大的网站实时监控和信息采集功能,包括:
web服务架构,用户可方便的通过浏览器配置采集的目标站点或页面。
采用多线程并发搜索技术,采集过程高效准确。
提高高效的更新手段,已经采集过的信息不会重复采集,更新时只获取前次 采集后更新的网页。
用户可方便设定信息监控的时间周期,支持各种定时更新方法,可定义到分 秒级。
支持按内容对采集的网页信息进行自动排重,实现不重复新闻发布。
支持表单登陆,可抓取需用户登陆才能访问的网站。
引入页码变量,可有效采集按一定翻页规则从数据库发布出来的信息。
可抓取网页内的图片。
支持BIG5内码网页自动转换为GBK统一管理;支持Unicode内码网页自动转 换为GBK。
采集过程成熟可靠,容错性强,完成初始设定后可长时间稳定运行。
2.基于模板的内容抽取技术
每个网站可根据网站的特点,定义网页的特征。系统根据模板,可准确抽取 出网页的标题、正文、图片。
系统自动过滤网页中的广告、JavaScript。
3.XML为传输核心的内容存储
系统自动将网页的标题、正文、时间等生成XML。
采用内容存储适配器,根据客户需要存储到客户的自定义数据库、XML文件 或知识库。
网络雷达系统中的信息可通过Gpower CMS的Web服务,直接存储到 Gpower CMS系统中,成为内容管理系统中的稿件。
|