知识工程

1.知识工程的提出

1977年美国斯坦福大学计算机科学家费根鲍姆教授(B.A.Feigenbaum)在第五届国际人工智能会议—提出知识工程的新概念。他认为,“知识工程是人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。恰当运用专家知识的获取、表达和推理过程的构成与解释,是设计基于知识的系统的重要技术问题。”这类以知识为基础的系统,就是通过智能软件而建立的专家系统

人们对知识工程的理解,一般局限于专家系统范围内。在费根鲍姆教授近著《第五代计算机:人工智能和日本计算机对世界的挑战》(1983年9月)中提到,“知识工程”一词在日本人那里很吃香,因为在日本,工程技术人员有很高的地位;但是在英国,工程技术人员不享受这样的荣誉,人们主张使用“专家系统”这个词。我们认为,知识工程是一门以知识为研究对象的新兴学科,它将具体智能系统研究中那些共同的基本问题抽出来,作为知识工程的核心内容,使之成为指导具体研制各类智能系统的一般方法和基本工具,成为一门具有方法论意义的科学。在1984年8月全国第五代计算机专家讨论会上,史忠植提出:“知识工程是研究知识信息处理的学科,提供开发智能系统的技术,是人工智能、数据库技术、数理逻辑、认知科学;心理学等学科交叉发展的结果”

知识工程可以看成是人工智能在知识信息处理方面的发展,研究如何由计算机表示知识,进行问题的自动求解。知识工程的研究使人工智能的研究从理论转向应用,从基于推理的模型转向基于知识的模型,包括了整个知识信息处理的研究,知识工程已成为一门新兴的边缘学科。

21 世纪人类全面进入信息时代。信息科学技术促进了劳动资料信息属性的发展,从而促使科学技术与生产力比过去更加紧密地凝结在一起,构成我们这个时代社会经济发展的新的特征,具有划时代的意义。它以计算机、网络和通信相结合的形式,体现在变革社会协作方式的推动力量中。信息化的必然趋势是智能化,它将使世界经济从工业化阶段进入知识经济阶段,即将物质生产和知识生产结合起来,充分利用知识和信息资源,提高产品的知识含量。知识和技术密集型产业将取代劳动密集型产业

2005 年陆汝钤提出知件的概念。通过知件的形式,我们可以把软件中的知识含量分离出来,使软件和知件成为两种不同的研究对象和两种不同的商品,使硬件、软件和知件在IT产业中三足鼎立。知件就是独立的、计算机可操作的、商品化的、可被某一类软件调用的知识模块。发展知识经济必然导致知识产业的建立,其关键要研究知件工程。

把知识产业看成是通过计算机、网络等现代信息设备大规模地生产知识的产业,可以把它分成三个层次:它的核心部分是知件产业;包含核心部分在内的中间部分是通过计算机和网络生产知识的产业;包含中间部分在内的最广义定义是知识的生产、加工处理和传播产业。

知识产业的兴起是后工业化社会的特征。在后工业化社会中,社会的主要功能从生产(制造)货物转向了知识经济,理论知识、技术和信息成了商品的主要形式。当前许多人把知识产业与知识服务紧密相联。

2.知识工程的发展

(1)1965至1974年——实验性系统时期

DENDRAL系统标志着“专家系统”的诞生

(2)1975至1980年——MYCIN时期

MYCIN专家系统是规范性计算机专家系统的代表

(3)1980年以来——知识工程的“产品”在产业部门开始应用的时期

3.知识管理与知识工程的比较[1]

1、知识管理与知识工程的学科学派对比分析

知识管理的研究非常热,知识管理的概念也非常多,不同的概念认知反映出不同的学派。厄尔分析了知识管理的七个学派,包括系统学派、制图学派、工程学派、商业学派、组织学派、空间学派和战略学派。宾尼把知识管理分为沟通型、分析型、资产管理型、过程型、开发型和创新型六种类型 。左美云把知识管理研究归纳为三个学派,包括技术学派、行为学派和综合学派 ;吴金希总结出知识管理的四大学派,包括IT技术学派、组织行为学派、战略管理学派、知识工程学派。盛小平总结了八个学派,包括认识论学派、战略管理学派、知识创新学派、空间学派、信息技术学派、组织行为学派、知识工程学派和综合学派。这些学派总体上分为两类,一类是企业知识管理学派,关注知识的转化与共享,重点关注隐性知识显性化,以提高企业核心竞争力为目标,如文献,属于管理科学。第二类是图书馆知识管理学派,以知识的序化为目标,提高知识组织的有序性,从而提高知识服务水平,属于图书馆学。知识管理的研究集中在企业管理、图书馆学与情报学领域。图书馆的知识管理分为两类,一类是以知识序化为目标的知识管理,一类是以知识共享与转化为目标的知识管理。前者重视资源的建设,管理的核心是资源。后者把图书馆作为一个具体的机构进行知识管理,管理的核心是人。但无论哪种学派,重组织轻技术是知识管理的典型特点。

知识工程在国内的研究集中在计算机科学与人工智能领域,如中科院的陆汝钤研究员对知识工程、知识科学进行深入研究,中科院的史忠植研究员对知识发现进行了深入研究 ,北京科技大学的杨炳儒教授主要从逻辑的角度对知识工程进行深入研究,浙江大学潘云鹤教授等从形象思维方面人手,运用心象思维理论,研究了语义知识与图形图像之间的转换 ,石纯一等教授研究了基于Agent的KQML(Knowledge Query and Manipulation Language,知识查询操作语言)知识操作。无论哪派知识工程,重技术轻组织是知识工程的共同特征。知识工程的根本目的是为了解决人工智能特别是专家系统中知识获取的问题。

把知识工程包含于知识管理或把知识管理包含于知识工程都是不可取的,知识管理更多地关注人的因素,属于管理范畴;知识工程更多地关注技术的实现,属于技术范畴。因此,无论从目标、处理手段与方法、应用领域、学科范畴等各个方面来讲,知识管理与知识工程都有着很大的不同,是完全不同的两个研究领域。

2、知识管理与知识工程核心内容对比分析

知识管理主要包括知识转化与知识序化。知识转化是知识共享的过程,同时知识共享也是知识转化的前提。知识管理中的知识转化包括四个方面,从隐性知识到隐性知识的社会化过程;从隐性知识到显性知识的外化过程;从显性知识到显性知识的综合过程;从显性知识到隐性知识的内化过程,这些转化主要是知识存在形态以及附着主体的变化。知识管理中的知识组织以知识的序化为主,包括分类、检索、排序等操作。传统的知识组织借助文献单元的方法,依据检索语言中的结构模式,采用分类法、标题法、单元词法、关键词法和叙词法,并在这些方法的基础上编制出各种目录、索引、文献等。以关键词或主题词来实现知识从物理层次的文献单元向认知层次的知识单元转化是不现实的,因为词单元不足以完整地反映知识,能够完整地反映知识应该至少是句子层次的。知识地图揭示知识源以及知识之间的关系,它指向知识而不包含知识本身,是一个向导而不是一个知识的集合 。所以知识地图实际上是知识的索引。但是知识地图不具备地理坐标这一基本属性。

知识管理不仅是获取、组织与检索信息的问题,还涉及数据挖掘、文本聚类、数据库与文档等问题。知识与人类认知的密切相关性,决定了知识管理定位在错综复杂的结构化的内容处理上。知识管理中的知识组织以自然语言的方式描述知识,知识的粒度并不统一,有大有小,大到一篇文献,小到一个知识点。

知识工程是以知识为处理对象,借用工程化的思想,利用人工智能的原理、方法和技术,设计、构造和维护知识型系统的一门学科,人们一般认为知识工程是人工智能的一个应用分支 。知识工程包括知识获取、知识表示与知识利用三大过程。知识获取有三种方式:非自动知识获取、知识抽取、机器学习知识。非自动知识获取由知识工程师通过阅读有关文献或与领域专家交流,获取原始知识并进行分析、归纳、整理,形成用自然语言表述的知识条目输入到数据库中。知识抽取是对蕴含于文本文献中的知识进行识别、理解、筛选、格式化,把文献的每个知识点抽取出来,以一定形式存人知识库中。机器学习知识通过机器的视觉、听觉等途径,直接感知外部世界,输入自然信息,获取感性和理性知识,或者根据系统运行经验从已有的知识或实例中演绎、归纳出新知识,补充到知识库中。非自动知识获取效率较低,机器学习知识难度太大,而知识抽取是知识获取的最有效方式。知识抽取是知识获取的三种方式之一,知识获取是知识工程的三大步骤之一(包括知识获取、知识表示与知识利用),因此知识抽取是知识工程的最有效方式。

本体研究的出现为知识工程的研究注入了新的活力,但是本体在知识工程中究竟扮演什么样的角色呢?本体是知识表示的一种方式?本体工程将取代知识工程?本体(ontology)其实就是一种充分复杂的词表,有了本体固然可以解决很多问题,但本体如何来获取仍然是一大难点,正如知识获取一直是人工智能的瓶颈问题。本体的获取有三种方式:手工构建、词表转换、自动获取。而本体论(Ontology)是一种认知论。本体的表示语言比知识表示语言更具体,具有更强的可操作性。

知识表示有九种方法,分别为:介谓词逻辑表示、产生式表示法、框架表示法、脚本表示法、过程表示法、语义网表示法、Petri网表示法、面向对象表示法” 。不同的知识类型使用不同的表示方法。如规则适宜用产生式表示法,实验过程适宜用过程表示法,概念特征适宜用面向对象表示法,概念之间的关系适宜用语义网表示法。知识利用包括知识搜索以及知识推理。知识搜索确定在什么情况下需要什么样的知识,搜索到的知识是否满足当前的需求。找到了适当的知识后,进行推理,得到结果。

3、知识管理与知识工程的外围要素对比分析

知识管理注重人与人之间的知识传递,而知识工程更注重知识本身的操作。知识管理(KM,Knowledge Management)的目标是建立供人使用的知识库,而知识工程(KE,Knowledge Engineering)的目标是建立供计算机使用的知识库。知识管理的核心是无序知识有序化、隐性知识显性化、泛化知识本体化 。知识工程主要涉及知识获取、知识表示与知识利用三大过程,其中知识获取一直是知识工程的难点,也是人工智能的瓶颈。知识管理主要从管理学的角度出发,重点关注隐性知识显性化,技术性不强,管理的结果主要是人用。知识工程是从工程学的角度出发,重点关注知识获取与知识表示,技术性很强,结果既可以人用,也可以机用,主要是机用。知识管理围绕着人转,知识管理的用户是人,计算机是辅助管理工具,人是知识管理中的本体。知识工程围绕着计算机转,知识工程的用户是计算机(系统),人与计算机是实现的工具,计算机是知识工程中的本体。

知识工程中的知识组织以计算机可理解的方式描述知识,知识的粒度比较小,以知识元(或称知识点)为单位。如知识库CYC,IBM深蓝计算机所使用的棋谱等。知识元与知识元之间的链接构成知识链。关于知识链的概念主要有三种用法。第一种用法为知识元与知识之间的链接,如知识发现过程中所用到的多个知识元之间形成的链接。第二种用法是文献知识链接,如清华同方的中国知网,万方数据的知识链接门户,不同的知识节点之间的粒度差异性很大,如从作者到文献、从作者到机构之间的链接,知识链接不能直接进行知识发现。第三种用法是对知识的处理过程所形成的动作链,如知识获取、知识重组、知识存储、知识传播等过程所形成的链。第一种知识链强调知识的可数性,第二种知识链中的知识节点范畴更大一些,第三种知识链中的知识可大可小。前两种知识链是不同知识元素之间形成的链,是元素与元素之间的关系,而第三种知识链是围绕单个知识元素进行的操作所形成的链,是动作与动作之间的关系。知识网格不同于知识网络,网格是一种充分利用网络资源的计算技术,这种技术解决的根本问题是计算资源(包括存储与运算,尤其是运算),所以知识网格并不是指由不同的知识元逻辑放在一起,形成格状。

4、知识管理与知识工程的发展趋势探析

知识管理应当以隐性知识显性化、无序知识有序化、泛化知识本体化为目标。知识工程,旨在建立面向对象知识库和逻辑命题知识库,以最贴近自然的方式来描述自然界的事物,以人们可认知、计算机可理解的方式描述事物之间的规律,以便能够有效地解决信息泛滥、信息爆炸等问题,可以对重复的信息进行滤重、筛选,得到最能反映事物本质及自然规律的清晰有序的知识。韩客松等认为知识发现是知识管理的最高层次:初级阶段是知识库(你知道你有什么),中级阶段是知识共享(你知道你没有什么),高级阶段是知识发现(你不知道你有什么)。

知识工程也在向着知识表达清晰化、数据组织有序化、内容存储本体化的方向发展,随着自然语言处理的新进展、面向对象方法的成熟应用,特别是本体论思想的引入,为知识工程的发展指明了方向,为知识工程的实施注入了新的活力。知识表示的方式已经比较成熟,能够覆盖绝大多数知识类型。知识工程的关键仍是知识获取,非自动知识获取太慢,很难满足工程化需要。全自动知识获取又太难,在自然语言处理无法取得重大突破以前,亦很难进行工程化实施。因此,半自动知识获取的方式具有更强的可操作性,构建部分知识库与学习规则,然后分析语料库,边分析边抽取,然后再改进规则,不断改进算法与丰富知识库。

5、知识技术的未来发展

知识管理不包括关于知识处理的全部,而知识工程也不包括知识处理的全部。知识管理与知识工程各有分工,各负其责。如果认为知识管理与知识工程有交叉的话,那就是在知识库的构建上。知识管理中构建的知识库一般用自然语言,而知识工程中构建的知识库一般用人工语言。尽管表示方式与使用对象都有所不同,但构建知识库都是关键一环。知识库构建的前提是知识获取,知识获取的有效方式是知识抽取,知识抽取的目标是形成以知识元为单位的知识库。知识获取是知识工程要解决的关键问题,因此,知识抽取是知识工程的关键一环。另一方面,知识抽取实现一种知识序化,是以不同粒度组织知识,而知识组织是知识管理的关键一环。因此,知识抽取既有利于知识工程的知识获取问题,又有利于知识管理的知识组织。知识管理与知识工程都涉及知识组织。

无论是知识管理还是知识工程,通过分析获取知识必然成为研究的重点。获取知识之后,对知识本身的分析以及知识之间的关系分析必然会成为新的研究热点,通过分析获取知识主要指知识抽取,知识本身的分析包括知识表示、知识转化与知识映射,知识之间的关系分析体现在知识挖掘、知识发现上。情报学家正好介于知识管理与知识工程之间 。

对人的管理不如管理学家,对计算机的研究又不如计算机学家,因此情报学对知识管理的定位更多的定位于知识服务 。情报学家在走知识管理与知识工程的交叉路,既做知识序化又做知识转化。单纯的信息可能会产生情报,单纯的知识很难产生情报,大多数情报是信息与知识共同作用的结果,即通过知识对新信息进行分析,分析出处境与机遇,为决策提供方案,这才是情报活动的本质。因此如何获取知识并有效的利用知识成为知识处理的关键。涉及知识处理的技术很多,包括知识组织、知识管理、知识服务、知识发现、知识挖掘、知识检索等等,但知识处理的核心是知识的获取、表示与利用。这些处理过程有些是人工的,如隐性知识显性化;有些是计算机自动化的,如从文献中抽取知识;还有一些是人机交互的,如知识表示。解决知识的来、去以及中间分析过程是知识处理的三大过程,也是核心所在。知识处理一定会在总结学术文献特征规律的基础上,以学术文献为主要处理对象,并适当借助自然语言处理技术,深入文献内容结构及语义表达进行分析,以知识元为处理单位进行抽取、组织并利用,从而实现知识的自动化处理,提高分析过程的知识维度与智能成分,推动图书情报学的飞速发展