語義網

語義網

蒂姆·伯納斯·李1998年提出的概念
語義網是對未來網絡的一個設想,與Web 3.0這一概念結合在一起,作為3.0網絡時代的特征之一。簡單地說,語義網是一種智能網絡,它不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關系,可以使交流變得更有效率和價值。語義網,它的核心是:通過給萬維網上的文檔 (如:HTML文檔、XML文檔)添加能夠被計算機所理解的語義“元數據”(外語:Meta data),從而使整個互聯網成為一個通用的信息交換媒介。[1]
  • 中文名:語義網
  • 外文名:Semantic Web
  • 适用領域:
  • 所屬學科:

概念

語義網的概念是由萬維網聯盟的蒂姆·伯納斯-李(Tim Berners-Lee)在1998年提出的一個概念,實際上是基于很多現有技術的,也依賴于後來和text-and-markup與知識表現的綜合。其淵源甚至可以追溯到20世紀60年代末期的Collins、Quillian、Loftus等人的研究,還有之後70年代初Simon、Schamk、Minsky等人陸續提出的一些理論上的成果。其中Simon在進行自然語言理解的應用研究時提出了語義網絡(Semantic Network,不是Semantic Web)的概念。當時人們甚至發明了以邏輯為基礎的程序設計語言Prolog。

蒂姆·伯納斯-李在2006年普林斯頓大學演講和後期接受媒體采訪時公開表示,他最初将這種智能網絡命名為語義網或許不夠貼切,也許更準确的名稱應該是數據網(外語:Data Web)。

語義網就是能夠根據語義進行判斷的智能網絡,實現人與電腦之間的無障礙溝通。它好比一個巨型的大腦,智能化程度極高,協調能力非常強大。在語義網上連接的每一部電腦不但能夠理解詞語和概念,而且還能夠理解它們之間的邏輯關系,可以幹人所從事的工作。它将使人類從搜索相關網頁的繁重勞動中解放出來,把用戶變成全能的上帝。語義網中的計算機能利用自己的智能軟件,在萬維網上的海量資源中找到你所需要的信息,從而将一個個現存的信息孤島發展成一個巨大的數據庫。

語義網的建立極大地涉及了人工智能領域的部分,與Web 3.0智能網絡的理念不謀而合,因此語義網的初步實現也作為Web 3.0的重要特征之一,但是想要實現成為網絡上的超級大腦,需要長期的研究,這意味着語義網的相關實現會占據網絡發展進程的重要部分,并且延續于數個網絡時代,逐漸轉化成“智能網”。

基本特征

類似于Web 2.0以AJAX概念為契機,如果說Web 3.0以語義網概念為契機的話,同樣會有近似于AJAX的一種技術,成為網絡的标準、置标語言或者相關的處理工具,用來擴展萬維網,開創語義網時代。擁有這一技術的企業将是網絡時代的弄潮兒。

語義網不同于WWW,現有的WWW是面向文檔而語義網則面向文檔所表示的數據,而語義網更重視于計算機“理解與處理”,并且具有一定的判斷、推理能力。

語義網的實現意味着當時會存在一大批與語義網相互依賴的智能個體(程序),廣泛的存在于計算機、通訊工具、電器等等物品上,他們組合形成環繞人類生存的初級智能網絡。

語義網是WWW的擴展與延伸,它展示了WWW的美好前景以及由此而帶來的互聯網的革命,但語義網的實現仍面臨着巨大的挑戰:

内容的可獲取性,即基于Ontology(本體,下同)而構建的語義網網頁還很少;

本體的開發和演化,包括用于所有領域的核心本體的開發、開發過程中的方法及技術支持、本體的演化及标注和版本控制問題;

内容的可擴展性,即有了語義網的内容以後,如何以可擴展的方式來管理它,包括如何組織、存儲和查找等;

多語種支持;

本體語言的标準化。

區别

如何理解與判斷?

語義網“不同于現存的萬維網,其數據主要供人類使用,新一代WWW中将提供也能為計算機所處理的數據,這将使得大量的智能服務成為可能”;語義網研究活動的目标是“開發一系列計算機可理解和處理的表達語義信息的語言和技術,以支持網絡環境下廣泛有效的自動推理”。

我們所使用的萬維網,實際上是一個存儲和共享圖像、文本的媒介,電腦所能看到的隻是一堆文字或圖像,對其内容無法進行識别。萬維網中的信息,如果要讓電腦進行處理的話,就必須首先将這些信息加工成計算機可以理解的原始信息後才能進行處理,這是相當麻煩的事情。而語義網的建立則将事情變得簡單得多。

例如,某天早上你突然想去可可西裡旅遊,于是你打開電腦,連通語義網,輸入“預訂今天下午兩點到六點之間任意時刻的到可可西裡的飛機票”,此刻你的計算機代理将先與你所住地點航空公司的代理進行聯系,獲得符合你要求的飛機票信息,然後聯系航空公司的訂票代理,完成訂購。你不必像這樣上網查看時間表,并進行拷貝和粘貼,然後打電話或在線預訂機票和賓館等,安裝在你計算機上的軟件會自動替你完成上述步驟,你所做的僅僅是用鼠标按幾個按鈕,然後等着送飛機票的人上門甚至直接去機場登機就可以了。

在浏覽新聞時,語義網将給每一篇新聞報道貼上标簽,分門别類的詳細描述哪句是作者、哪句是導語、哪句是标題。這樣,如果你在搜索引擎裡輸入“老舍的作品”,你就可以輕松找到老舍的作品,而不是關于他的文章。

總之,語義網是一種更豐富多彩、更個性化的網絡,你可以給予其高度信任,讓它幫助你濾掉你所不喜歡的内容,使得網絡更像是你自己的網絡。它與普通萬維網差異主要有以下幾點:

一、面向的對象不同

萬維網主要使用HTML表達網頁内容。使用HTML标記的網頁的确可以表達一些控制網頁顯示格式之類的信息,從而使人們認為計算機真的可以“理解”我們的意圖。但實際上HTML僅注重文本的表現形式,如字體顔色、大小、類型等,而不考慮文本的具體内容與含義。雖然萬維網上有一些自動的腳本程序可以幫助人們實現一部分功能,但在開放式的網絡環境中,它們并不能很好地用于計算機之間的交互。因此我們所使用的萬維網主要是供“人”閱讀和使用的。而語義網則是要在萬維網之上加入一些可以被計算機“理解”的語義信息,它在方便人們閱讀和使用的同時,也方便計算機之間的相互交流與合作。因此,萬維網面向的對象主要是“人”,而語義網面向的對象則主要是“機器”。

二、信息組織方式不同

由于二者面向的對象不同,因此在信息組織方式上自然會存在很大的差異。萬維網在組織信息資源時主要以“人”為中心,按照人們的思維習慣和方便性組織網絡信息資源。語義網在組織信息資源時則必須兼顧計算機對文本内容的“理解”以及它們之間的相互交流和溝通。

三、側重點不同

萬維網側重于信息的顯示格式和樣式,而不關心所要顯示的内容。例如對于比較重要的信息,萬維網可能會在其顯示上以大字體、或顔色鮮明的字體表示。而語義網則更加側重于信息的語義内容,對具有特定意義的文本必須進行一定的标注或解釋。

四、主要任務不同

萬維網主要是供人閱讀、交流和使用的,其主要任務就是信息發布與獲取。通過在網絡上發布或獲取信息來達到共享和交流的目的。語義網的主要任務則是計算機之間的相互交流和共享,從而使計算機可以代替人們完成一部分工作,使網絡應用更加智能化、自動化和人性化。

五、工作方式不同

語義網與萬維網面向的對象不同,它們的工作方式自然也有所不同。萬維網主要面向“人”,因此其大部分工作都是由人來完成的,包括信息的收集、檢索、整理、排序和分析等等。而語義網通過加入一些可以被計算機“理解”的語義信息,則可以把人從上述各類繁瑣的工作中解脫出來,利用“智能代理”幫助完成上述的大部分工作。一個典型的例子就是信息檢索,利用智能搜索代理,語義網将提供給人們真正需要的信息内容,而不像搜索引擎那樣輸出數以萬計的無用的搜索結果。

實現

語義網雖然是一種更加美好的網絡,但實現起來卻是一項複雜而浩大的工程。 語義網的體系結構正在建設中,主要需要以下兩方面的支持:

一、 數據網絡的實現

即:通過一套統一的完善的數據标準對網絡信息進行更徹底更詳細的标記,使得語義網能夠精準的識别信息,區分信息的作用和含義

要使語義網搜索更精确徹底,更容易判斷信息的真假,從而達到實用的目标,首先需要制訂标準,該标準允許用戶給網絡内容添加元數據(即解釋詳盡的标記),并能讓用戶精确地指出他們正在尋找什麼;然後,還需要找到一種方法,以确保不同的程序都能分享不同網站的内容;最後,要求用戶可以增加其他功能,如添加應用軟件等。

語義網的實現是基于可擴展标記語言(标準通用标記語言的子集、外語縮寫:XML)和資源描述框架(外語縮寫:RDF)來完成的。XML是一種用于定義标記語言的工具,其内容包括XML聲明、用以定義語言語法的DTD (document type declaration文檔類型定義)、描述标記的詳細說明以及文檔本身。而文檔本身又包含有标記和内容。RDF則用以表達網頁的内容。

二、具有語義分析能力的搜索引擎

如果說數據網絡能夠短時間通過億萬的個體實現,那麼網絡的語義化智能化就要通過人類尖端智慧群體的努力實現。研發一種具有語義分析能力的信息搜索引擎将成為語義網的最重要一步,這種引擎能夠理解人類的自然語言,并且具有一定的推理和判斷能力。

語義搜索引擎(外語:semantic search engine)和具有語義分析能力的搜索引擎(外語:semantically enabled search engine)是兩碼事。前者不過是語義網絡的利用,一種信息搜索方式,而具有語義分析能力的搜索引擎是一種能夠理解自然語言,通過計算機的推理而進一步提供更符合用戶心理的答案。

現狀

我們知道,大部分科技創新和突破是對已有知識的重新組合和更新,具有對網絡空間所儲存的數據進行智能評估能力的語義網,必然會為新的科技創新提供無盡的資源。一旦這種技術被廣泛運用,其産生的效益無可估量。因此,語義網從誕生之日起,便成為計算機研究的熱點領域。

W3C組織是語義網主要的推動者和标準制定者,在它的呵護之下,語義網技術羽翼漸豐。2001年7月30日,美國斯坦福大學召開了題為“語義網基礎設施和應用”的學術會議,這是有關語義網的第一個國際會議。2002年7月9日,在意大利召開了第一屆國際語義網大會。此後語義網大會每年舉行一次,形成慣例。同時,HP、IBM、微軟、富士通等大公司,斯坦福大學、馬裡蘭大學、德國卡爾斯魯厄大學、英國曼徹斯特維多利亞大學等教育機構都對語義網技術展開了廣泛深入的研究,開發出了Jena、KAON、Racer、Pellet等一系列語義網技術開發應用平台、基于語義網技術的信息集成以及查詢、推理和本體編輯系統。

國内語義網研究現狀

我國也非常重視語義網的研究,早在2002年,語義網技術就被國家863計劃列為重點支持項目,清華大學、東南大學、上海交通大學、北京航空航天大學和中國人民大學都是國内語義網及其相關技術的研究中心。東南大學的語義網本體映射研究有一定的國際影響,清華大學的語義網輔助本體挖掘系統SWARMS,上海交通大學的本體工程開發平台ORIENT都代表了國内語義網研發水平,時下流行的人機互動工具都是語義網絡的具體應用,但是其中水平參差不齊,通過一些簡單的測試就可以看出他們差異。(如圖《中文語義軟件對比》所示)

前景

語義網的體系結構正在建設中,當前國際範圍内對此體系結構的研究還沒有形成一個令人滿意的嚴密的邏輯描述與理論體系,中國學者對該體系結構也隻是在國外研究的基礎上做簡要的介紹,還沒有形成系統的闡述。

語義網的實現需要三大關鍵技術的支持:XML、RDF和Ontology。可擴展标記語言可以讓信息提供者根據需要,自行定義标記及屬性名,從而使XML文件的結構可以複雜到任意程度。它具有良好的數據存儲格式和可擴展性、高度結構化以及便于網絡傳輸等優點,再加上其特有的NS機制及XML Schema所支持的多種數據類型與校驗機制,使其成為語義網的關鍵技術之一。關于語義網關鍵技術的讨論主要集中在RDF和Ontology身上。

RDF是W3C組織推薦使用的用來描述資源及其之間關系的語言規範,具有簡單、易擴展、開放性、易交換和易綜合等特點。值得注意的是,RDF 隻定義了資源的描述方式,卻沒有定義用哪些數據描述資源。RDF由三個部分組成:RDF Data Model、RDF Schema和RDF Syntax。

體系結構

Berners-Lee于2000年提出了語義網的體系結構,并對此做了簡單的介紹。該體系結構共有七層,自下而上其各層功能逐漸增強。

第一層

第一層:“字符集”層。

Unicode和URI。Unicode是一個字符集,這個字符集中所有字符都用兩個字節表示,可以表示65536個字符,基本上包括了世界上所有語言的字符。數據格式采用Unicode的好處就是它支持世界上所有主要語言的混合,并且可以同時進行檢索。URI(Uniform Resource Identifier),即統一資源定位符,用于唯一标識網絡上的一個概念或資源。在語義網體系結構中,該層是整個語義網的基礎,其中Unicode負責處理資源的編碼,URI負責資源的标識。

第二層

第二層:根标記語言層。

XML+NS+xmlschema。XML是一個精簡的标準通用标記語言,它綜合了标準通用标記語言的豐富功能與HTML的易用性,它允許用戶在文檔中加入任意的結構,而無需說明這些結構的含意。NS(Name Space)即命名空間,由URI索引确定,目的是為了避免不同的應用使用同樣的字符描述不同的事物。XML Schema是文檔類型定義(DTD)的替代品,它本身采用XML語法,但比DTD更加靈活,提供更多的數據類型,能更好地為有效的XML文檔服務并提供數據校驗機制。正是由于XML靈活的結構性、由URI索引的NS而帶來的數據可确定性以及XML Schema所提供的多種數據類型及檢驗機制,使其成為語義網體系結構的重要組成部分。該層負責從語法上表示數據的内容和結構,通過使用标準的語言将網絡信息的表現形式、數據結構和内容分離。

第三層

第三層:“資源描述框架”層。

RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言,其目标是建立一種供多種元數據标準共存的框架。該框架能充分利用各種元數據的優勢,進行基于Web 的數據交換和再利用。RDF解決的是如何采用XML标準語法無二義性地描述資源對象的問題,使得所描述的資源的元數據信息成為機器可理解的信息。如果把XML看作為一種标準化的元數據語法規範的話,那麼RDF就可以看作為一種标準化的元數據語義描述規範。Rdfschema使用一種機器可以理解的體系來定義描述資源的詞彙,其目的是提供詞彙嵌入的機制或框架,在該框架下多種詞彙可以集成在一起實現對Web資源的描述。

第四層

第四層:“本體詞彙”層。

“本體詞彙”,(外語:Ontology vocabulary)。該層是在RDF(S)基礎上定義的概念及其關系的抽象描述,用于描述應用領域的知識,描述各類資源及資源之間的關系,實現對詞彙表的擴展。在這一層,用戶不僅可以定義概念而且可以定義概念之間豐富的關系。

五至七層

第五至七層:Logic、Proof、Trust。Logic負責提供公理和推理規則,而Logic一旦建立,便可以通過邏輯推理對資源、資源之間的關系以及推理結果進行驗證,證明其有效性。通過Proof交換以及數字簽名,建立一定的信任關系,從而證明語義網輸出的可靠性以及其是否符合用戶的要求。

模型定義

“資源描述框架”的“數據模型”(外語:RDF Data Model)提供了一個簡單但功能強大的模型,通過資源、屬性及其相應值來描述特定資源。模型定義為:

它包含一系列的節點 N;

它包含一系列屬性類 P;

每一屬性都有一定的取值V;

模型是一個三元組:{節點,屬性類,節點或原始值V};

每一個“數據模型”(外語:Data Model) 可以看成是由節點和弧構成的有向圖。

模型中所有被描述的資源以及用來描述資源的屬性值都可以看成是“節點”(Node)。由資源節點、屬性類和屬性值組成的一個三元組叫做RDF Statement (或RDF陳述)。在模型中,陳述既可以作為資源節點,同時也可以作為值節點出現,所以一個模型中的節點有時不止一個。這時,用來描述資源節點的值節點本身還具有屬性類和值,并可以繼續細化。

RDF Schema 使用一種機器可以理解的體系來定義描述資源的詞彙,其功能就像一個字典,可以将其理解為大綱或規範。RDF Schema的作用是:

定義資源以及屬性的類别;

定義屬性所應用的資源類以及屬性值的類型;

定義上述類别聲明的語法;

申明一些由其它機構或組織定義的元數據标準的屬性類。

RDF Schema 定義了

三個核心類:rdf:Resource、rdfs:Property、rdfs:Class;

五個核心屬性:rdf:type、rdfs:subClassOf、rdfs:seeAlso、rdfs:subPropertyOf、rdfs:isDefinedBy;

四個核心約束:rdfs:ConstrantResource、rdfs:range、rdfs:ConstraintProperty、rdfs:domain。

RDF Syntax構造了一個完整的語法體系以利于計算機的自動處理,它以XML為其宿主語言,通過XML語法實現對各種元數據的集成。

Ontology (本體或本體論),原本是一個哲學上的概念,用于研究客觀世界本質。Ontology已經被廣泛應用到包括計算機科學、電子工程、遠程教育、電子商務、智能檢索、數據挖掘等在内的諸多領域。它是一份正式定義名詞之間關系的文檔或文件。一般Web上的Ontology包括分類和一套推理規則。分類,用于定義對象的類别及其之間的關系;推理規則,則提供進一步的功能,完成語義網的關鍵目标即“機器可理解”。本體的最終目标是“精确地表示那些隐含(或不明确的)信息”。

當前對本體的理解仍沒有形成統一的定義,如本體是共享概念模型的形式化規範說明,通過概念之間的關系來描述概念的語義;本體是對概念化對象的明确表示和描述;本體是關于領域的顯式的、形式化的共享概念化規範等等。但斯坦福大學的Gruber給出的定義得到了許多同行的認可,即“本體是概念化的顯示規範”。概念化(外語:Conceptualization)被定義為:C =,其中C表示概念化對象,D表示一個域,W是該領域中相關事物狀态的集合,Rc是域空間上的概念關系的集合。規範(外語:Specification)是為了形成對領域内概念、知識及概念間關系的統一的認識與理解,以利于共享與重用。

本體需要某種語言來對概念化進行描述,按照表示和描述的形式化的程度不同,可以将本體分為完全非形式化本體、半非形式化本體、半形式化本體和嚴格形式化的本體。有許多語言可用于表示Ontology,其中一些語言是基于XML語法并用于語義網的,如XOL(Xml- based Ontology exchange Language),SHOE(Simple HTML Ontology Language),OML(Ontology Markup Language)以及由W3C組織創建的RDF與RDF Schema(RDFS)。還有建立在RDF與RDFS之上的、較為完善的Ontology語言DAML(DARPA Agent Markup Language)、OIL和DAML+OIL。

XOL是一種基于XML語法和OKBC語義的本體交換語言。它由美國生物信息學術團體設計,用于其領域的一組異構軟件系統間本體定義的交換,它以Ontolingua和OML作為基礎,融合了OKBC的高層表達方式和OML的語法。當前還沒有支持XOL本體開發的工具,但由于它采用XML語法,可以采用XML編輯器來創建XOL文件。SHOE由馬裡蘭大學開發,它将機器可讀的語義知識與HTML文檔或其他Web文檔相結合,允許直接在WWW的基礎上設計和應用本體。近來SHOE的語法已轉向XML,它使得代理(Agents)能夠收集有意義的Web頁面和文檔的信息,改善搜索機制和知識收集。OML由Washington大學開發,部分基于SHOE。它有四個層次:OML核心層(與語言的邏輯層相關);簡單OML(直接映射RDF和RDFS)、簡化OML和标準OML。

RDF是W3C推薦的一種信息描述方式,目的是克服XML的語義限制,提供一種簡單的模式來表示各種類型的資源。在RDF的基礎上,RDFS建立了一些基本的模型限制。RDF具有較強的表達能力,但仍存在一些不足,如RDF沒有定義推理和公理的機制、它沒有說明包含特性以及沒有版本控制等。

OIL建立在RDF之上,其主要優勢在于以描述邏輯為基礎,提供形式化語義的推理。OIL綜合了三方面的技術:框架系統、描述邏輯和基于XML與RDF語法的Web語言。框架系統采用了一種類似于面向對象的方法對數據建模,提供建模原語;描述邏輯用規範化的方法表達結構化知識以及查詢和推理;基于XML和RDF語法的Web語言為OIL提供語言元素。OIL的數據對象主要包括:類定義、槽定義(slot definition)以及公理定義(axiom)。類定義包括定義類型、類層次關系和槽約束或屬性約束;槽定義定義實體間的二元關系,包括有原語slot-def,domain,rang,inverse,subslot-of等;公理定義由定義該本體内的一些附加規則,如類之間外延的關系有不相交、覆蓋、相交、等價等。

DAML由DARPA(美國國防部高級計劃研究署)主持開發,力圖溶入包括RDF、OIL等的優點,它與OIL一樣建立在RDF之上,以描述邏輯為基礎。其主要目标是開發一個旨在以機器可讀的方式表示語義關系、并與當前及未來技術相容的語言,尤其是開發出一套工具與技術,使得Agent(代理)程序可以識别與理解信息源,并在Agent程序之間實現基于語義的互操作。DAML的最早版本為DAML-ONT,但後來與OIL緊密結合形成了DAML+OIL。DAML+OIL是由美國和歐盟在DAML背景下共同開發的,它與OIL有着相同的目标,是應用最廣的本體語言。它是RDF(S)基礎上的擴展,具備充分的表達能力(如唯一性、傳遞性、逆反性、等價等),具有一定的推理能力,完全确定了語義網中知識表示語言的整體框架。

當然,要實現語義網并非僅有XML和RDF就行了。更主要的技術難題還在于要讓電腦可以進行過多的“思考”和“推斷”,而面對紛繁複雜的問題,尤其是社會問題,人尚且難以決斷,更何況計算機呢。因此,要真正實現實用的語義網還有很多工作要做。

應用示例

各種萬維網技術都有可能被應用于語義網(在語義環球網的意義上),例如:

DOM文檔對象模型,一組訪問XML和HTML文檔組成部分的标準接口.

XPath、XLink、XPointer

XIncludeXML fragmentXML查詢語言XHTML

XML Schema,RDF(Resource Description Framework)

XSL,XSLTExtensible Stylesheet Language

SVG(Scalable Vector Graphic)

SMIL

SOAP

DTD

微格式

元數據概念.

研究趨勢

語義網是網絡時代的高級智能産物,其應用廣泛,有着美好未來。下面将介紹主要應用技術與研究趨勢。

經典的自底向上和新興的自頂向下的方式。自底向上的方法關注于标注好的信息,使用RDF表示,所以這些信息是機器可讀的。自頂向下則着重于利用現成的頁面信息,從中自動抽取出有意義的信息。近年來每一種方法都有一定的發展。自底向上的方法的一個喜訊來自于Yahoo搜索引擎支持RDF與microformats的聲明。這是一個對于内容發布者、Yahoo和消費者來說三赢的舉措:發布者有了标注自己信息的激勵,Yahoo可以更有效地利用這些信息,用戶可以得到更好、更精确的結果。另一個喜訊來自于Dapper關于提供語義網絡服務的聲明,這項服務可以讓内容發布者給現有的網頁添加語義标注。可以期待的是,這種語義工具越多,發布者标注網頁就會越容易。自動标注工具的發展與标注激勵的增多,會使得自底向上的方法更加引人注目。盡管工具與激勵都有了,但要使得自底向上的方法流行起來還是有相當的難度。事實上,今天google的技術已經可以在一定程度上理解那些非結構化的網頁信息。類似地,自頂向下的語義工具關注點在于怎樣處理現有的非完美的信息。這些方法主要是利用自然語言處理的技術來進行實體的抽取,這些方法包括識别文檔中特定實體(與人名、公司、地點等)的文本分析技術,以及能獲取特定領域信息的垂直搜索引擎。

自頂向下的技術關注于從非結構化的信息中獲得知識,但它同樣可以處理結構化的信息,自底向上的标注技術越多,自頂向下方法的性能就越能得到提高。在自底向上的标注方法中,有幾種候選的标注技術,它們都很強大,對它們的選擇需要在簡單性及完全性之間作一個權衡。最完備的方法是RDF:一種強大的基于圖的語言,用于表示事物、屬性及事物間的關系。簡單地來說,你可以認為RDF是這樣的一種語言,它通過這樣的方式來表達事實:Alex IS human (類型表達),Alex HAS a brain (屬性表達),and Alex IS the father of Alice,Lilly,and Sofia (關系表達)。

RDF很強大,但因為它是以高度遞歸、精确與數學化而著稱的,同時它也是很複雜的。當前,大多RDF的使用都是為了解決數據的互通性。例如,醫學組織使用RDF來表述染色體組數據庫。因為信息被标準化了,所以,原來孤立的數據庫就可以被一起查詢并相互比較了。一般說來,除了語義方面的意義,RDF最主要的好處在于實現互通性與标準化,特别是對于企業來說(下文有論述)。Microfomats提供了一個簡單的方法――CSS風格-―來給現有的HTML文檔添加語義标記,簡潔的meta數據被嵌入到原有的HTML文檔中。比較流行的Microformats标簽包括hCard:描述個人及公司聯系信息;hReview:添加到評論頁的meta信息;與hCalendar:描述事件的标簽。Microformats因它的簡單而得到流行,但它的能力仍然是很有限的。例如被傳統的語義團體認為是很必要的層次結構的描述,它就做不到。此外,為了使得标記集最小化,難免地它們表達的意思就顯得比較模糊。這就引出了另外一個問題:把标簽嵌入到HTML文檔中是不是一種合适的做法?然而,雖然仍存在很多的問題,Microformats還是因為它的簡單而廣受青睐,像Flickr,Eventful,LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索聲明發布之後。還有一種更為簡單的方法就是把meta數據放在meta頭中。這種方法已經在一定程度上被使用,可惜的是使用得還不是十分廣泛。紐約時報最近為他們的新聞頁面啟動了一個标注擴展,這種方法的好處已經在那些主題或事件頁面中顯現出來。例如,一個新聞頁面可以通過一組關鍵詞來标識:地點、日期、時間、人物與類别。另一個例子是關于書的頁面,已經在頁面的meta頭裡加入了書本的信息:作者、ISBN與書的類别。盡管所有這些方法不盡相同,但相同之處是它們都是很管用的。越多的網頁被标注,就會有越多的标準會被實現,同時信息也會變得更為強大與更易于得到。

關于語義網的讨論中,在用戶與企業的關注點是不一樣的。從消費者的立場來說,我們需要一個殺手級的應用(killer app),可以給用戶傳遞實在而簡單的價值。因為用戶隻會關注産品的實用性,而不會在乎它建立在什麼技術之上。問題在于,語義網的關注點更多的都還停留在理論層面,如标注信息以使得機器可讀。我們可以給出這樣的承諾:一但信息都被标注,網絡就會變成一個大型的RDF數據庫,大量激動人心的應用也會應運而生。但也有懷疑者指出,首先你必須得達成那樣的假設。

已經有很多基于語義網的應用,如通用及垂直搜索引擎、文本助理工具、個人信息管理系統、語義浏覽工具等等,但在它們為大衆所接受之前,還有很長的路要走。即便這些技術成功了,用戶也不會有興趣知道那背後使用了些什麼技術。所以說在用戶層面推廣語義網技術是沒什麼前景的。

企業就不一樣了,第一,企業比較習慣于技術方面的論調,對于它們來說,利用語義技術可以增加産品的智能程度,從而形成市場價值。“我們的産品更好更聰明,因為我們使用語義網”,聽起來這對企業來說是一個很不錯的宣傳。

從企業層面來說,RDF解決了數據的互通性标準的問題。這個問題其實在軟件行業的早期便已出現,你可以忘掉語義網,隻把它看作是一個标準協議,一個使得兩個程序可以互通信息的标準。這對企業來說無疑是極具價值的。RDF提供了一個基于XML的通訊方案,它所描述的前景使得企業并不在乎它的複雜性。但還存在着一個擴展性的問題,跟已經普及優化的關系型數據庫不同,基于XML的數據庫并沒有普及,這歸咎于其可擴展性與查詢能力。就像九十年代末的對象數據庫一樣,基于XML的數據庫承載了太多的期望,讓我們拭目以待。

語義API是随着語義網的發展而發展的,這類網絡服務以非結構化的文本作為輸入,輸出一些實體與關系。例如路透社的Open Calais API,這項服務接受原始文本的輸入,返回文本中的人名、地點、公司等信息,并在原文中加以标注。另一個例子是TextWise的Hacker API,該公司還提供了一百萬美元的懸賞,以獎勵基于它的API的最好的商業語義網應用。這個API可以把文檔中的信息分為不同的類别(稱為語義指紋),輸出文檔中的實體與主題。這點和Calais的很相似,但它還提供了一個主題的層次結構,文檔中的實際對象是結構中的葉節點。再一個例子來自于Dapper,那是一個有助于從無結構的HTML頁面提取結構化信息的網絡服務。Dapper的工作依賴于用戶在頁面上為對象定義一些屬性,比如,一個圖片出版商會定義作者、ISBN和頁數的信息在哪裡,然後Dapper應用就可以為該站點創建一個識别器,之後就可以通過API來讀取它的信息。從技術的角度來看,這似乎是個倒退,但實際上Dapper的技術在實際當中非常有用。舉個典型的情景為例,對于一個并沒有專門API可以讀取其信息的網站,即便是一個不懂得技術的人都可以在短時間内用Dapper來構造一個API。這是最強大、最快捷的把網站變為網絡服務的途徑。

可能語義網發展的最初動機就是因為很久以來搜索的質量都已經很難再得到提升。關于對頁面語義的理解能提高搜索質量這一點假設也已經被證實。語義網搜索兩個主要的競争者Hakia與PowerSet都已經做出不少的進步,但仍然不足夠。因為,基于統計的google算法,在處理人物、城市與公司等實體時表現得與語義技術同樣的好。當你提問“法國總統是誰”時,它能返回一個足夠好的答案。越來越多人意識到對搜索技術邊緣化的改進是很難擊敗google的,因而轉向尋找語義網的殺手級應用。很有可能,理解語義對于搜索引擎是有幫助的,但就此并不足以構建一個更好的搜索引擎。充分結合語義、新穎的展示方式與對用戶的識别能提升下一代搜索引擎的搜索體驗。

另有一些方法試圖在搜索結果上應用語義。Google也在嘗試把搜索結果分為不同的類别,用戶可以決定他們對哪些類别感興趣。搜索是一場競賽,很多語義公司都在追逐其中。也許會有另一種提高搜索質量的可能:文本處理技術與語義數據庫的結合。下面我們即将談到。我們已經看到越來越多的文本處理工具進入消費市場。像Snap、Yahoo Shortcuts或SmartLinks那樣的文本導航應用可以“理解”文本與鍊接中的對象,并附加相應的信息于其上。其結果是用戶根本不需要搜索就可以得到對信息的理解。讓我們想得更遠一些,文本工具使用語義的方式可以更為有趣。文本工具不再解析用戶在搜索框裡輸入的關鍵詞,而是依賴于對網絡文檔的分析。這樣對語義的理解會更為精确,或者說減少猜測性。随後文本工具給用戶提供幾類相關的結果供選擇。這種方式從根本上不同于傳統的把大量文檔中得到的正确結果一起堆放在用戶面前的方式。同樣有越來越多的文本處理工具跟浏覽器結合起來。自頂向下的語義技術不需要發布者做任何事情,因而可以想像上下文、文本工具可以結合在浏覽器裡。Firefox的推薦擴展頁裡提供了很多的文本浏覽解決方案,如Interclue,ThumbStrips,Cooliris與BlueOrganizer等。

語義數據庫是标注型語義網應用的一個發展方向。Twine正在beta測試階段,它着眼于建立一個關于人物、公司、事件、地點的私人知識庫,數據來源為各類論壇的非結構化内容,這些内容可通過書簽、郵件或手工的方式進行提交。這項技術仍有待成熟,但它所能帶來的好處顯而易見。可以意想的一個基于Twine的應用為個性化的搜索,通過個人的知識庫來對搜索結果進行過濾。Twine底層的數據表示方式是RDF,可以開放給其它的語義網絡服務所采用,但其核心的算法,如實體提取是通過語義API的方式商業化的。路透社也提供了類似的API接口。另外一個語義數據庫的先行者是一家叫Metaweb的公司,它的産品的Freebase。從它所展現的形式來看,Freebase隻是一個基于RDF的更結構化的wikipedia翻版。但是Freebase的目标是建立一個像wikipedia那樣的世界信息庫,這個信息庫的強大之處在于它可以進行精确的查詢(就像關系型數據庫那樣)。所以它的前景依然是更好的搜索。但問題在于,Freebase怎樣保持與世界信息同步俱進?google每天對網絡文檔進行索引,可以随着網絡發展而發展。Freebase的信息僅來自于個人編輯及從wikipedia或其它數據庫中抓回的數據。如果要擴展這個産品,就必須完善從全網絡獲取非結構化信息、解析并更新數據庫這一處理流程。保持與世界同步這一問題對所有數據庫方法都是一種挑戰。對于Twine來說,需要有不斷的用戶數據加入,而對于Freebase來說,則需要有來自不斷的來自網絡的數據加入。這些問題解決起來并不簡單,在真正實用之前都必須要有一個妥善的處理。所有新技術的出現都需要定義一些概念和得到一些類别。語義網提供了一個很激動人心的前景:提高信息的可發現性,實現複雜的搜索,新穎的網絡浏覽方式。此外語義網對不同的人有不同的意義,它對于企業和對于消費者的定義是不同的,在自頂向下VS自底向上,microformats VS RDF等不同類型中也有不同的含義。除了這些模式,我們也看到了語義API與文本浏覽工具的發展。所有的這些都還處于其早期發展階段,但都承載着改變我們與網絡信息交互方式的期望。

語義網的高級階段使得圖書館,售訂票系統,客戶管理系統,決策系統均能發揮很好的效果。譬如要出去旅行,隻要把具體時間要求與自己喜愛的國内旅遊類型提供給語義網支持的查詢系統,那麼很快相應的國内景點,最佳旅遊方案與注意事項,提示以及旅行社的評價均能很快速得準備在浏覽器頁面上。

語義網終會把網絡的高級階段應用到世界的每一個角落,每個人均有自己的網絡IP一樣的身份證明.個人消費信用、醫療、檔案等等全在自己的網絡身份裡面。同時網絡社區更比現實社區更有活躍力,網絡社會更有秩序、更和諧。

相關詞條

相關搜索

其它詞條