概述
IMG_Pre
我公司基于自主的电子文件管理平台构建,按网页电子文件管理规范设计完成的网页电子文件管理系统很好的解决了网页长久保存、历史信息查询、离线阅读等问题。 网页电子文件管理系统是一种特殊的电子文件管理系统,符合国家电子文件管理系统通用功能要求,具有管理和利用网站网页电子文件的功能。
 
功能特性
目标网页采集
通过爬虫服务,将网站页面保存为网页快照的过程,并提供元数据采集及OFD文件制作。目标网页采集处理网页的内容和链接信息,同时还处理网页内部链接资源,并保持其一致性。
元数据集管理
通过配置好的元数据管理方案,对相应的网页快照内容进行捕获、添加操作,并一同提交给封装服务。元数据管理方案实现文字分析方案和模板分析方案两种形式。
文字分析方案通过使用文字分析规则,对页面内的有效文字组合内容进行提取,汇总成元数据。
模板分析方案是通过针对特定版式页面,使用模板文件,针对网页内部的结构进行分析,从而抓取相应区块或版式的内容。
网页电子文件捕获
网页电子文件管理系统作为一种特殊的信息系统,其主要功能是捕获、管理并维护归档网页电子文件真实性、完整性与有效性,支持网页电子文件检索,为机构的职能活动提供凭证。
IMG_Pre
IMG_Pre
网页的版式处理
网页的版式处理将在生成过程中完成。系统可根据不同网络地址的文件,使用不同的版式模板,达到去除网页内噪声内容的问题。经过版式处理的网页文件,不仅可以排除噪声信息对信息提取的干扰,提高信息提取的准确性,而且可以使得网页中的结构简单化,提高元数据信息提取的效率,提高元数据的可靠性。
完成版式处理的网页电子文件将调用OFD文件生成接口,生成OFD网页电子文件。
网页电子文件阅读
文件阅读分为两种方式:在线阅读和离线阅读。
在线阅读
OFD阅读器作为Applet嵌入到B/S结构的应用系统中时,通过相应的数据接口直接访问服务端的远程文件,并直接解析成为OFD的内存模型进行阅读,数据在客户端无缓存、“不落地”确保不在远程客户端保存文件副本。
通过应用系统的分类管理,展现文档内的网页文件的目录与层级关系,通过按键或点击选择和打开类目、案卷、文件,以显示其下位层次和所有内容。
离线阅读
系统的OFD阅读器支持将多个专题的OFD文件组合成期刊进行阅读。
离线阅读方案可去除网页电子文件存档时的大量无用数据,重新规划和组织目录大纲,并按一定格式顺序统一输出。
离线阅读包不仅仅支持某一卷或分类的导出,也支持按文件时间检索或关键字检索结果的导出,还能够根据筛选条件要求,进行分类打包。导出的离线包可直接按分类规则或筛选规则作为电子期刊或专题呈现。
IMG_Pre
IMG_Pre
文件检索
系统通过二次权限过滤方式保障用户无法通过检索查阅到无权限的文件或元数据字段。
系统通过模糊语义匹配、联想式词语输入、通用符比对、检索频率统计、缺省值查询、定义逻辑关系运算的优先级和串并联处理等技术手段并通过OFD全文检索接口,建立无格式文档索引库进行内容检索,来实现组合检索、全文检索、检索范围设定及二次检索。
在检索过程中,系统通过索引技术、条件过滤查询和Json数据传输等技术手段,根据条件过滤出符合条件的数据,之后按照分类树的模式重新加载,将检索结果显示成分类子树呈现出来,通过导航功能对子数进行相关的操作。
可在检索结果显示页面对文件进行分组和排序,同时允许在权限体系控制下进行查看、传输和打印操作。
文件打印
系统支持如下打印:全宗打印、类目打印、案卷打印、综合打印、文件清单打印。所有打印支持查询打印功能,即可以选择打印的特定类别和相关的元数据作为查询条件。
打印权限控制:系统会将安全管理员根据角色、组、职位设定的打印权限,在生成OFD文件时产生权限声明,由OFD阅读器对OFD权限声明中的内容进行执行。也可以控制打印到物理打印机或者打印到虚拟打印机。
IMG_Pre
 
应用行业
IMG_Pre
  • 政府机构
  • 企事业单位
 
成功案例
  • 国土资源部