1、标杆(GIPS)网络信息自动采集与推送系统
  • GIPS信息抓取及推送系统V1.0实现了对指定网站栏目的信息抓取、结构化处理和个性信息推送服务,实现了动态网页和数据库的深度数据采集。系统主要功能:
  • (1) 抓取模板定义:对于指定网站的指定栏目,包括静态网页、非.net技术的动态网页和可展示至网页的网站数据库信息,通过人工确定栏目信息所属行业和信息类型,分析该栏目有效网页的URL地址规律、元数据字段设置等信息结构,订制信息抓取模板,包括抓取范围、数据结构、抓取内容、信息取舍(定向信息)原则等。
  • (2) 信息抓取和结构化处理功能:对每一抓取模板,可设定时间间隔、线程数等信息抓取参数(管理抓取任务),抓取任务自动对相关栏目的网页信息进行抓取,按照模板设置的参数对抓取数据进行结构化处理,抛弃不合理数据(即留下所需要的数据),与数据库已有信息进行比较和排重,将信息存入指定数据库。
  • (3) 信息推送功能:可以配置信息推送参数,按照选择信息类型数据库表和筛选条件,将数据转存至指定数据库、保存成XML文件或发送至指定地址的邮箱。
  • (4) 深网信息的抓取:分析进入数据库以及信息呈现在页面的手工操作过程,以及操作路径,通过模板设定信息抓取程序的爬行路线、构造地址(动态创建页面地址)、穷举地址,最终跟踪到数据库信息。
  • (5) 内容抓取和内容排重:GIPS抓取系统,抓取信息的排重机制:按照模版规定的路径访问最终信息,并对信息呈现页面下载分析、提取关心内容,并结构化存储在数据库中。按照抓取数据的信息类型配置的排重字段(与已存储内容比较),自动过滤重复记录,完成信息内容排重处理。
    • 2、标杆(GIPS)网络信息自动标引系统
  • GIPS信息分类主题自动标引系统运用标杆信息资源目录体系和分类主题一体化词表,采用先进的汉语分词技术、词频统计分析、主题词重要性权重技术、匹配规则和算法等,由计算机自动实现被处理信息的主题词和分类号标引,主要功能:
  • (1) 标引配置:配置被标引数据所在数据库表并指定标题、摘要、正文 等所在字段,以及自动标引的分类号、主题词保存的字段,配置标题、摘要、正文所占权重和标引深度。
  • (2) 灵活的配置功能和多种标引方式 就内容而言:对标引信息数据库的灵活配置;对标引信息字段的灵活配置;对挂接的词表的灵活配置; 就效果而言:通过对标引深度的灵活设置和标引权重的灵活设置,达到良好地标引效果; 就标引方式而言:可以进行单条标引;可以进行批量标引;可以进行增量标引;可以进行全库标引。
  • (3) 修正标引结果:可以查看自动标引的分类号和主题词,记录手工修改的标引的分类号和主题词。
    • 3、标杆(GIPS)网络信息的组织与整合技术
  • 互联网信息组织无序,分类混乱,没有统一的分类标准,一般的搜索引擎搜索到的信息大多缺乏针对性,不能以特定学科进行信息资源的搜索和浏览。为规范化互联网信息组织标准,标杆公司研制了网络信息分类目录体系,于2002年,以“网络信息分类系统”为名,被国家信息部颁布为电子行业信息标准。标杆公司在组织网络信息资源时,以网络信息分类目录体系为基础,采用了Ontology和网络信息分类主题一体化词表相结合的方法,对网络信息进行整合和再组织,并应用于盛搜健康网、盛搜网和多行业、多功能信息搜索平台,起到了良好的效果。
  • 该网站提供了全球第一个语义深网信息搜索平台,它以全行业、全学科网络信息分类目录体系和信息分类主题一体化词表为基础,融合了互联网信息搜索和本地数据库检索技术,并对用户检索要求进行了语义分析,实现了行业间、学科间的深层信息挖掘和搜索及其之间的跳转检索。
  • 以疾病、药品、医疗器械、养生保健以及医疗常识等信息为主要内容,以社会公众、医务工作者、社区卫生组织、医院、医疗服务商、药品和医疗器械经销商为主要用户,提供医疗信息、保健信息、疾病诊治和医药商务信息,将人们关心的医疗与健康知识流、寻医问药业务流、医疗器械与保健品的商务流整合在一起,通过盛搜健康网提供信息增值服务。
  • 该网站以网络信息分类目录体系和网络信息分类主题一体化词表为基础,实现了各行业、各学科之间的快速搜索、行业搜索和精确搜索。主要功能有16个信息类型数据库的多库检索、信息分类目录导航检索、智能词(同义词、相关词)检索、全文检索及其限定字段检索和不同信息类型的信息关联检索等。
    • (C)1999-2016 版权所有:北京标杆网络技术有限公司
    • Copyright 1999-2016 GIPS.COM.CN All Rights Reserved