语义网技术体系

前言


自1990年创建以来,万维网已然成为人类有史以来最庞大的信息系统,并改变着人类社会的诸多方面。万维网空前成功的背后应该有诸多因素,我们认为系统的开放性、易用性和易扩展性是其中的重要因素。然而,万维网最初追求的是一个互相链接的超文本文件系统,这些文件可以通过“浏览器”来查看。这意味着,万维网上的信息主要是为人类准备的,人类可以方便地浏览和理解这些信息。随着万维网的逐步成熟,人们希望机器能够理解和集成万维网上的数据,更好地为人类服务。为此,在万维网创始人蒂姆·伯纳斯-李(Tim Berners-Lee)的倡导下,万维网联盟(W3C)于2001年建立语义网行动计划。

语义网是W3C进一步发展万维网的一个愿景,它提供这样的一个公共框架,使得数据的共享和复用可以跨越应用系统、企业和社区的边界。W3C提出了资源描述框架(RDF),并鼓励人们采用那些基于RDF数据模型的数据格式来构建或发布数据,这样机器或者计算机程序能够按照RDF数据模型来理解和集成有关数据。在构建或生成RDF数据时,通常需要使用某个领域的词汇表,即一组类和属性。W3C并没有规定数据提供者使用何种词汇表来描述资源或事物,而是希望人们按照RDFS或OWL等本体语言来定义或描述他们的词汇表,这样,机器能够按照本体语言的语义模型来理解这些词汇表,从而可以更好地理解使用这些词汇表的RDF数据。当然,使用同一词汇表的RDF数据集成会更加容易。

经过十年多的努力,语义网的理论基础已经奠定,W3C有关语义网的技术规范也逐步得到了完善。同时,链接数据(Linked Data)指导原则已经成为在万维网上发布RDF数据的基本准则,一个基于RDF数据模型的数据之网(Web of Data)正在快速成长。特别地,DBpedia是一个从维基百科中提取的RDF数据集,它已经成为数据之网的枢纽,越来越多的语义网数据链接到它,覆盖的领域包括地理、公司或组织机构、人员、电影、音乐、基因、药品、书籍和科学出版物等。以DBpedia为核心的链接开放数据(LOD)推动了数据之网的快速增长,也拉开了语义网应用的序幕。事实上,信息领域的业界开始倡导知识库的构建及其在搜索引擎中的应用,比如Google正在大力推行“知识图谱”。可以预见,基于语义网技术的数据共享和利用将成为语义网技术及应用的发展方向。

本书作者长期从事语义网领域的研究工作,希望通过这本书系统地介绍语义网的基本理念及技术体系,详细阐述语义网应用中的基础技术,并介绍作者在语义网搜索、本体匹配和语义网浏览等方面的研究成果。本书第2、3、7章由胡伟副教授负责撰写,第5、6章由程龚副教授撰写,其余各章由瞿裕忠教授主笔。作者希望这本书能够成为语义网及相关领域研发人员的基础读物或参考书,也可作为信息技术类专业研究生或高年级本科生相关课程的参考用书。因作者能力和写作时间所限,书中内容难免有不足之处,恳请读者指正。关于本书的最新情况,请访问:http://ws.nju.edu.cn/swbook。

本书的出版得到了国家社会科学基金重点项目“语义网应用技术体系和发展战略研究”(项目编号:61223003)和国家自然科学基金面上项目“语义Web浏览方法与技术的研究”(项目编号:61170068)的资助,也得到了科学出版社的大力支持,在此表示感谢!本书中介绍的部分研究成果得益于研究组中博士生和硕士生的辛勤工作,在此一并致谢!