1.什么是知识仓库
知识仓库起初来源于数据仓库(Data Warehouse),在过去的十几年里,现代电子技术的日益发展,使基于计算机技术的数据库技术得以长足发展。近年来,人们对数据库的研究方向由原来单一的日常事务电子化发展成对数据的阵系结构,数据的含义进行研究。公认的数据库之父H.W.Inmon给数据仓库下的定义是:数据仓库是集成的、面向主题的,用于决策支持的数据库集合。
知识仓库是以多行业、多类别数据仓库组成的一个集合,它涉及众多行业、众多层次的单位,在形式上包括文字、影像、图形等以多媒体形式具体存在的表现形式,也应包括以某种理论、假想算法,推论存在的抽象的东西。其组成一个比较庞大的知识的综合体,大可以指导一个国家,乃至一个世界发展的方向,小至指导一个企业的发展策略,甚至个人的发展前途。
2.企业知识仓库的组成
3.企业知识仓库的特点
知识仓库利用其广泛的数据知识资源,经过严密、科学的分析整理,根据条件的不同,可利用于各行各业,指导各行各业的单位实体或个人能够沿正确的发展方向发展,能够将最先进的理论、最新的技术运用到最实际的生产生活中去。总的来说,知识仓库的应用有以下几个方面的特点:
(1)适用的行业多:知识仓库来源于各行各业的最基层工作者经验技术的总结加工,根据知识仓库的分类汇总分析统计,形成的面向专业的知识决策支持系统,可完成相对应专业的知识支持功能。
(2)强大的知识支持辅助决策功能:知识仓库利用其海量的数据、智能并行的知识处理能力,辅之计算机人工智能的发展,可以完成对面向专业知识的支持,解决企事业单位在具体操作工作中面临的知识缺乏的问题,提供理论知识、技术知识,辅以专家系统的知识仓库更能在事件的决策中起到辅助决策的作用。
4.知识库、数据仓库和知识仓库
知识库是存放知识的集合,一般专用于智能系统中存放相关领域知识,在规模上比较小,知识的种类也比较单一。
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。最主要的特点是数据种类多和数量大,按照主题组织数据,支持决策。
知识管理面向的知识来源多、种类多、数量大,不仅包含大量的数据,更重要的是大量数据之后隐藏的知识。另外,知识管理涉及的人员复杂,不像是数据仓库主要是满足决策者的需要,知识管理系统需要满足不同人员的需要。知识管理中用来存储知识和数据的存储体与数据库、数据仓库不同,但又相似的内容,所以提出知识仓库的概念,实际上是两者的有机结合。
因此,知识仓库是面向主题的、对多种类型知识库进行集成、满足多种类型用户的需要的数据和操作集合。数据仓库应该具有很好的适应性、灵活性、可扩充性、健壮性、易用性、安全性。知识仓库的整体结构可以参照数据仓库,可以利用数据仓库的一些思想来组织数据。
5.企业知识仓库与知识管理系统
Joseph M.Firestone(1999)认为,知识仓库与知识管理系统实际上是同一概念,因为知识仓库的管理对象也是知识。但是,在组织实施知识管理这样一个背景下,区分知识仓库和知识管理系统还是必要的。
(1)它们的目标不同。知识管理系统应该支持组织知识管理的所有环节,而知识仓库仅关注显性知识的存储。
(2)如果把知识战略、知识组织、知识文化等环境要素也看作组织知识管理系统的组成部分,则组织知识管理系统的范围就比知识仓库大得多。
所以,知识仓库是知识管理系统的重要组成部分。
首先,知识存储是组织知识循环过程中的关键环节。如果没有对显性知识的系统化、集成化的存储,知识的整理、传递、共享等都无从谈起。
其次,在知识管理系统建设过程中,知识仓库建设所涉及的工作最大,范围最广。知识仓库建设不仅涉及到软件的部署,最重要的还是对组织知识资源的调查、分析和分类组织。这项工作需要一个由计算机专家、领域专家和知识管理专家组成的小组来完成,关系到整个系统建设的成败。
可以说,知识仓库是组织知识管理系统的核心要素,是知识管理系统建设的硬件。
6.企业知识仓库的地位
知识可划分为显性知识(explicit knowledge)和隐性知识(tacit knowledge)两类。其中,显性知识是指能够用语言、符号、规则、公式或对象等正式表达并能够传输给他人的知识;隐性知识是深深根植于人脑中的信念、观点、创意和智力模型,包括某人长期从事某项活动或职业而形成的主观经验、洞察力和直觉。二者紧密关联,并与经济活动融为一体,成为当代社会发展的主要推进力量。
知识管理是通过共享和抓住隐性知识并将其转变为显性知识,筛选、存储、加工、检索、传递和利用显性知识,创新新的知识来增加社会价值的。这种实践活动可用知识螺旋(Knowledge Spiral)来描述。在每一个螺旋中存在4个阶段:共享隐性知识阶段、隐性知识转变为显性知识阶段、显性知识转变为新知识阶段和通过学习产生新的隐性知识阶段。每一次新的显性知识和隐性知识的产生便是知识螺旋的一次上升。
相对于知识管理,信息管理注重显性知识或称编码型知识(Codified Knowledge)的搜集、存储、加工、检索、分析和预测,这方面的研究成果主要表现为数据仓库的开发和利用。数据仓库使企业能抽取、筛选、存储大量的数据,对用户的检索进行有效而准确的反应,并为决策活动提供了强大的基础。然而,数据仓库中仅仅存储了决策者所需知识的一部分,企业绝大部分智力财富以隐性知识的方式存在于员工的大脑中,因此,数据仓库不足以满足对知识检索的需求。为了满足知识管理和知识决策的需求,可以对现存的企业数据仓库进一步扩充,成为满足知识管理需求的知识仓库。知识仓库能够对不同类型的知识(显性知识和隐性知识)和不同形式的知识(纯文本、二进制对象、模型等)进行捕捉、存储、编码、组织和分析。另外,这些知识还包括元知识(关于知识的知识)和分析后产生的新知识。
7.企业知识仓库的功能
基于上述对企业知识仓库概念的认识,我们认为一个企业知识仓库应具备如下基本功能。
(1)知识获取功能
获取完整正确的企业知识是实现企业知识存贮和共享的前提。也是知识仓库应具备的重要功能之一。获取知识的方式有人工和自动获取两种形式。人工获取往往由知识工程师与领域专家、用户等相互协作和交流,对企业大量的知识资源进行抽取、归纳、整理等得到,然后通过知识仓库的知识导入界面录入知识仓库。人工知识获取不能从数量巨大的信息或知识资源中获取潜在知识,也不能及时地从系统运作中获取新知识。由于知识的时效性,为保证知识仓库中知识的正确、完整,知识仓库还需具备知识的自动获取功能,它能与现有的企业知识库、信息资源库相连,运用数据挖掘技术、机器学习技术、基于案例的推理及神经网络技术等自动从大量知识资源中抽取有效知识,能从专家知识拥有者中自动获取难以表述的经验、动作、意念等隐性知识。
(2)知识导入功能
知识仓库的知识不仅需要知识工程师录入,而且允许各类普通用户或其他系统以各种输入手段将其知识信息及时导入,知识仓库应具备知识导入功能,该功能能为各种类型的知识制定不同的知识交流界面,使用户能按特定的知识描述格式输入知识,同时对现有信息系统或外界系统导入的信息可借助于智能代理技术实现对知识的自动抽取或加载。
(3)知识的分类
存贮和检索功能。企业知识种类繁多,需要存储的不只是知识条目,还需包括与之相关的事件、使用情况、来源线索等信息,这些信息可能以文本、声音、图像、表格、超文本等多种格式体现。知识仓库应能根据不同的知识特征进行分类,采用多种类型的数据库进行分布式存储,能对各种结构的知识进行统一集成。同时对存储的知识应能方便地进行查询和检索。为此,知识仓库还应提供强大的知识检索功能,能以各种手段为知识工程师或普通用户提供便捷的知识查询,同时能在查询中起到导航作用。
(4)知识维护功能
由于知识的时效性,知识仓库中的知识是动态变化的,知识仓库应在保证其中知识质量的同时,监督知识的使用情况,监督来自各种知识源的知识,不断调整知识结构,及时删除不正确、不完整的知识,对过时的知识进行更新。另外,由于企业知识对不同级别的人往往有不同的访问权,知识仓库的维护中应设立多级安全认证,对不同级别的维护者赋予不同的知识存取权限,以此来保证知识的正确性和完整性。
(5)知识推送功能
为给用户提供便捷的知识共享界面,使用户所需知识能在恰当的时候及时展现在合适的用户面前,知识仓库应能按预定的知识描述格式提取关键字并与知识仓库中相应问题的解决方案进行匹配,将用户感兴趣的知识自动、及时的推送到用户界面。
8.企业知识仓库的设计
1.知识仓库的体系结构设计
知识仓库的体系结构不存在统一的模式,它的内容应该是活泼的,依组织的具体情况而定。然而这不是说知识仓库的体系结构没有模式可循,实际上,存在着多个合理的模式可供选择。
这里提出一个基于智力动产价值提升理论(图1)的新的知识仓库体系结构模型(图2),此模型分为三层。
(1)知识库和知识装入代理组成的数据、信息层。
(2)知识引擎组成的知识层。
(3)分析工具、检索工具等组成的激活层。
描述知识及其关联背景的元数据作为共享资源贯穿各层。组织的数据、信息经过这三层的加工、处理,以活化的知识(即情报)的形式呈现给用户,支持用户的学习和决策。
数据、信息层负责知识的捕获、组织与存储,包括知识库和知识装入代理。知识库可分为方法库、模型库、数据库、文档库等,并可根据组织的知识构成情况加以增减。知识装入代理可以是知识工人与智能代理程序组成的人机系统,它主动地扫描、分析组织的知识资源,发现知识单元及其相互之间的联系,对知识单元进行分类组织,装入知识库,同时把知识单元之间的联系装入元数据。知识装入代理也负责对知识库的维护,发现并剔除过时的知识。
知识层负责知识单元的动态连接,即把知识与其背景一同呈现出来。知识层的主要部件是知识引擎,是一个利用了人工智能技术的计算机程序。它接受来自激活层的访问请求,然后分析元数据中对于相关知识单元之间联系的描述,将知识库中的相关知识单元动态地连接起来,提交给激活层。它主要采用神经网络算法,将激活层的检索请求与知识单元进行匹配,然后存储匹配过程,并根据用户的确认调整神经网络的内部权值。
激活层负责知识的表现,也可以叫做用户接口层。它包括分析平台、检索平台、重组平台、推送平台等,可根据实际需要加以增减。分析平台面向决策人员,需要采用多种人工智能技术,包括神经网络、遗传算法、基于事例的推理等。由于各种算法应用的范围不同,因此,平台还需要具有根据环境调度各种算法的能力。检索平台面向组织的知识参考需求,可采用自然语言检索的方式,减轻用户的智力负担。重组平台主要面向组织的个性化学习需求,它可以根据学习主体的情况,将相关知识重新组合,生成个性化的教材。推送平台使用户可以订阅感兴趣的信息或知识,通过各种终端(PC,PDA等)随时随地接收信息。
元数据是此模型中非常重要的一个部分。作为各层的共享资源,它记录了知识库中装入数据的来源、描述以及知识单元之间的关联。
2.知识仓库的主题划分
由于知识仓库是面向主题的,因此知识仓库设计的第一项要完成的任务就是对系统主题进行划分。知识仓库的分析主题应该涵盖企业方方面面的知识,而且,不同企业需求不同,对知识仓库主题的划分的角度也有所不同,在这里,本文仅从支撑经营运作的角度对知识进行划分(如图3)。
3.知识仓库的概念模型设计
概念模型是一种面向问题的数据模型,它描述了从用户角度看到的知识仓库的内容及其联系,是一种纯粹的现实反应,而与存贮结构、存取方式等知识仓库的具体实现内容无关。概念模型是联系主观与客观的桥梁,它是一个为一定的目标设计系统、收集信息而服务的概念型工具。具体到计算机系统中,概念模型是客观世界到计算机世界的一个中间层次。
知识概念模型的设计需要给出一个知识仓库的粗略蓝本,以此为工具来判定设计者是否已经正确地了解知识仓库最终用户的信息需求。在概念模型设计阶段,主要完成星型模型和雪花模型的设计。
4.知识仓库的逻辑模型设计
逻辑模型亦可称为中间层数据模型,它是对高层的细分。尽管应用星型模型和雪花模型可以在概念模型设计中建立数据仓库的概念模型,但是无法直接依靠概念模型实现数据仓库的物理模型,还要依靠逻辑模型作为概念模型到物理模型转换的桥梁。
知识仓库一般都建立在关系数据基础上,因此,数据仓库设计过程中所采用的逻辑模型主要是关系模型。但是,不同的机器系统又有许多不同的限制,提供不同的环境与工具。所以,在进行逻辑模型设计时一般要分三步进行。
(1)将概念模型转化为一般的关系模型。一般情况下,我们都是由E-R图转换导出关系数据模型。由于关系模型的逻辑结构是一组关系模式的集合,而E-R图则是由实体、实体的属性和实体之间的联系三个要素组成的,所以将E-R图转化为关系模型实际就是要将实体、实体的属性和实体之间的联系转化为关系模式。
(2)将转化的关系模型向特定的数据仓库支持下的数据模型转换。这一步转化是依赖于机器的,没有普遍的规则,转换的主要依据是知识仓库的功能及限制。
(3)对数据模型进行优化。由于知识仓库的逻辑设计的结果不是唯一的。为了进一步提高知识仓库的系统性能,还应当适当的修改、调整数据模型的结构,主要为:确定数据依赖,并对数据依赖进行最小化处理、消除冗余关系等等。
9.知识仓库管理技术
(1)、决策支持
决策支持工具是将知识仓库与现实应用相互关系的工具,知识仓库利用已有的知识,按照相应的条件约束,对某一问题可以作以辅导决策,这其中应用到人工智能技术、专家系统技术、软件工程技术,也是知识仓库今后发展的主要利用方向[2]。其包括知识查询工具、知识解释工具、多维分析工具和知识控属工具。知识查询指以某种检索条件为依据而提出的一般知识请求,知识解释则是对知识处理和可视化知识的展现(如统计分析等)。
知识多维分析是指从业务角度对数据聚集的分析,又称随机分析处理(OLAP)。由于软件技术和工具软件的不断改进,多维联机可以更准确、更直接、更直观的将知识所蕴含的内涵作用显现出来。
(2)、知识发现
知识发现通常称为数据挖掘,也叫信息发现,在一般的业务分析中,最终用户头脑中已经有了具体的问题,例如:"8月份某产品销售了多少?"这一问题借助决策支持工具可以方便的从知识仓库查到相应的信息以及历史情况曲线分析、可能存在或面临的问题,目前的数据挖掘工具主要有数据关联、顺序狭义、分类器和聚类技术。知识发现的方法和实施过程:从技术上讲,发掘的实施大体可以分为五个步骤:
- 选择和准备发掘的数据;
- 预处理;
- 研究开发一种或多种数据知识挖掘工具;
- 发现未知知识;
- 运用已发现的知识于决策支持,达到特定目标。
(3)、WWW与知识仓库的融合
WWW技术的飞速发展,对知识仓库的发展产生很大影响。首先是基于Web的决策支持工具的出现,改变了用户对知识仓库的使用方式,不同局限于某一范围获得的知识,而是通过Internet/Intranet远程访问知识仓库。其次用于访问知识仓库的信息目录也可以通过Web浏览器来查询和发布知识,这种方式极大程度上使知识仓库技术通过WWW更能扩大其应用范围。
10.知识仓库的标准化与安全性
通常说来,知识仓库的标准化分为两个方面:知识仓库的标准化和软件系统的标准化。知识仓库是以数字化资源为基本素材,数字化资源的本身已经相对标准化,决定了其标准化的方向。 作为知识仓库中的主要部分软件系统,其标准化的程度在某种意义上更是重要,它负责知识仓库与信息系统的知识接口问题,在建立的过程中,力求达到知识的通用接口,使知识仓库的资源采集、加工、处理、输出等接口都达到与信息系统的通用与兼容。
知识是构筑一切的基础,并非是无国界的,或者是公开的技术,对于我们的知识仓库,存在一些非常严重的课题,就是安全性。现今的知识仓库,CNKI都会受到外界的干扰、人为的恶意入侵与破坏:
- 计算机病毒;
- 芯片掏鬼活动;
- 高能非核电磁脉冲;
- 微米纳米机器人和芯片细菌;
- 黑客。
对于知识仓库技术安全性的问题,应有几点考虑:
(1)对于病毒,防范是权宜之计,关键立足长远,加强研究,积极迎接病毒对信息化社会的严重威胁和挑战。
(2)统筹计划,研究对抗技术。
(3)开展计算机病毒的专题研究
总之,知识仓库的发展将是信息化社会的知识发展的趋势,向着智能化、网络化发展,是未来智能信息系统的支撑环境。