1024cl2019新地扯入口

首页 >产品中心>通用产品

SDI智能数据取得系统

一、 产品先收留

产品提供丰富、灵敏、高效、安然的信息搜集使用,将分散的异构数据源如数据库(关系/非关系型数据库)、网络信息(WEB)资源、文件系统等数据中中中斷抽取及清洗、转换、加工,构成一致的数据规范规范后中中中斷数据加载,为信息搜索、信息整合利用、数据决策剖析等使用提供高质量数据。

 

二、 产品背景

随着信息技术的迅猛展开和普及使用,信息资源越来越出现出不同表示情势和结构多样性,少许信息散布在彼此独立的各个子系统和节点中,需求通过信息技术手段把各类不同规范、不同来源的异构数据转换为一致的信息和知识并加以利用,为行业化使用提供信息资源的整合效率。

 

三、 功能特性

1024cl2019新地扯入口1. 一致的搜集办理

1024cl2019新地扯入口平台模块化架构,支持搜集模块可插接扩大;

多线程调度管控,按时按需自动启动搜集;

多义务协作并行爬取同一目的,提高数据搜集效率;

1024cl2019新地扯入口一致义务监控,实时监测数据搜集的运转状态;

异常数据报警与追溯机制,保证数据的完全性;

搜集义务可视化的配置、办理、监控与统计;

一致认证与授权,为用户提供把持安然与数据安然保证;

规范化接口,支持与第三方平台集成;

2. 完备的搜集方案

(1)数据库数据搜集

支持各种类型数据库(关系型/非关系型)数据搜集,包羅但不限于Oracle、MySQL、SQL Server、DB2、Mongo DB、TRS、ArcGIS、人大金仓、达梦等

1024cl2019新地扯入口支持数据表大对象字段、文件途径字段的内收留属性与全文抽取

支持字段拆分、多字段吞并后搜集

1024cl2019新地扯入口支持数据过滤、清洗与类型转换

(2)网络资源搜集

支持全站点回档模式与指定页面内收留搜集模式

支持动态页面(Ajax)与自媒体数据搜集

支持自动模拟登录;

支持多种防爬取战略:IP池轮询、代理效率器、可控搜集频度等;

支持多级关联页面的信息抽取与组织;

(3)文件资源搜集

1024cl2019新地扯入口支持FTP、本地文件目录、网络磁盘等文件来源;

支持Word、PPT、EXCEL、PDF、TXT、HTML等常见文本格式文件属性解析与全文提取;

支持200多种常见文件格式文件元数据提取;

(4)支持增量搜集

(5)支持大数据散布式搜集

(6)支持针对第三方系统接口的搜集适配器可扩大

例如:EMC Documentum、IBM FileNet、Oracle Opentxt和OA、ERP、Email等企业级使用;

(7)支持可配置输进方案

1024cl2019新地扯入口搜集内收留可依据需求输进到各类型数据库或元数据仓储平广元。

四、 使用案例

1. 党政

中共中心某办事机构-523项目

1024cl2019新地扯入口国务院某办事机构-政务信息资源整合与利用项目

国度展开和改革委员会-信息资源整合利用平台

2. 企业

1024cl2019新地扯入口国度电网公司运营监测(控)中心-互联网大数据搜集处置项目

日喀则市航空航1024cl2019新地扯入口大学-中航信情报剖析系统

中国电信-运维效率中心工单知识库搜索项目

3. 军队

1024cl2019新地扯入口某军事医学研讨机构-军事医学战略论证与情报研讨支持系统及综合资料库

1024cl2019新地扯入口某军兵种科技信息网-综合集成知识效率平台

4. 图情

榆樹市图书馆-网事典躲项目

1024cl2019新地扯入口国际关系学院-学科文献专题效率中心项目

分享到: