2009/06/14

圖書館的鏈接資料(linked data):基礎篇(上)

圖書館的書目資料走上語意網—這已不是夢。

在資訊與知識傳播及服務方面,圖書館在將來需與其他相關者(如Google、出版者)扮演重要的角色。而圖書館如何將其大量的書目、內容...等很有價值的資料(數據)釋放到網路上,讓它們充分被利用(如混搭mashup),甚至“活化”,讓其價值發揮到最大,這是圖書館得以立足於未來網路世界的重要基礎。

Web 2.0 已朝向 Web 3.0 進化,是Web of Data ( “資料/數據”為主的網路),也是語意網的時代。其中重要觀念與作法包括:網路上的相關資料(data) 必需充分且適當加以“連結”,使資料變為所謂“鏈接資料”(Linked Data,或稱為“關聯數據”)(例子),如此才利於電腦處理、利於搜尋與查檢。而圖書館的書目資料的處理也必需有新的作法。

Library Journal 2009年4月15日出版的專刊 netConnect,其中幾篇文章是從圖書館的角度來講述鏈接資料(Linked Data),算是入門的介紹,現摘譯Coyle寫的這篇如下:

Making Connections (建立連結) by Karen Coyle

從文檔到數據From documents to data

在網頁上的文字資料,其中有些字會有超連結;若稱這些字為資料元素(data element),則資料元素與相關資料元素之間會有一種有意義的連結,例如我們說資料元素A與資料元素B有一種關係X,[在語意網]這種“關係”(relationship)不僅讓人可以領會且讓機器也可以處理。

一些文句對人來說很容易懂,但對機器則不然。例如一個句子:“Herman Melville是《白鯨記》的作者”,人們懂得這句子的意思是因為人們透過背景資料(上下文資料)知道Herman Melville是個人、《白鯨記》是部作品、“…的作者”(author of)是指Herman Melville寫了這本書。如果要讓電腦程式處理這些資料,就需提供它能了解的背景資料(上下文資料)。因此,讓機器來了解語意,需有下面三個要素:識別標示(identities)、關係(relationships)、及規則(rules)。

識別標示(Identities)

對鏈接資料(Linked Data)來說,[文詞的]概念及關係的識別是很重要的。例如:我們談話時提到地名“Georgia”(喬治亞),我們會很清楚指的是(美國)喬治亞州或東歐的喬治亞共合國。但在語意網環境下,需要對喬治亞州及喬治亞共合國作不同的標示,因為電腦很難了解上下文,另外,我們可能在別的情況(別的上下文)也會用到這些詞彙。我們使用URI(統一資源標示符)作為識別標示,開頭以 http://.../ 來表示。

聚集許多識別詞彙(identified terms)便成為“詞彙集”(vocabularies),或在語意網中稱為“本體”(ontologies)。這些詞彙各有其URI。多半情況,詞彙具有含義,其URI可指向某一描述此詞彙的文件,或提供機器處理所需的其他資訊。有個語意網的標準叫“簡單知識組織系統”(Simple Knowledge Organization System,SKOS),它將詞彙的結構界定為索引典的形式(有上、下位詞…)。這些詞彙可能在相關的註冊單位登記了。電腦程式能利用這些詞彙(連同詞彙關係,機讀的),也能利用應用程式界面中詞彙的定義(人可讀的)。

關係(Relationships)

舉例說明:
John Smith與Betty Jones 有一種關係X ;另外George Johnson與Betty Jones 也有一種關係X
機器並不懂“關係X”是什麼意思,但如果你問:誰與Betty Jones有一種“關係X”時,機器運算後能回答:John Smith及George Johnson。

規則(Rules)

在語意網,規則因涉及推理(inference),所以是很重要的。簡單的數學推理:
如果A=B 且B=C,則 A=C

語意網的運作就要靠許多規則(機讀的)。語意網中規則的基礎檢索標準是SPARQL(查詢語言),供語意網資料查詢之用。

再舉個例子:
-------------------------------------------------------------------------
詞彙(Term): 叢書(Series)
標示符(Identifier): http://www.example.com/publishingTerms/3279
定義(Definition): 一群文件(資料),先後出版(A group of documents published in an order over time)

詞彙(Term): 圖書(Book)
標示符(Identifier): http://www.example.com/publishingTerms/101
定義(Definition): 一份獨立出版的文件(資料)(An ind ependently published document)

關係(Relationship): 屬於XXX的成員(isMemberOf)
標示符(Identifier): http://www.example.com/publishingTerms/73
定義(Definition): 屬於(某)一套(Belonging to a set)

規則(Rules):
圖書可以是屬於叢書的成員(Book can be “isMemberOf” Series)
叢書不能是圖書的成員(Series cannot be “isMembe rOf” Book)
叢書可定義為所有的總合(Series can be defined as the sum of all)
圖書具有“屬於XXX的成員”這種關係(Books with relationship isMemberOf)

為提供更多圖書或叢書的資訊,你可擴展規則:
叢書可以按叢書號排序(Series can be ordered by: series number)
叢書可以按出版日期排序(Series can be ordered by: publication date)
---------------------------------------------------------------------------
藉著詞彙、規則及關係,在網路上任何地方,叢書裡的圖書才能被識別(can be identified)及按序顯示。

Linked Data很重要的特色是“連結”(links)能遍及整個網路。例如:一本書連到一套叢書,此連結只需定義一次,即可用於這本書在網路上的所有情況。連結(links)可以很容易變為“鏈”(chains),它可以從一本書轉移到一套叢書、然後再轉移到叢書中的其他圖書 (Links easily become chains that can move from a single book to a series and then to all of the other books in that series) 。

Dbpedia資料庫便是根據維基百科所建立的Linked Data資料集(data set)。

與圖書館資料相連結 Linking it all to libraries

語意網面臨的問題除了網路上的文檔資料(documents)普遍未含標記(markup,有此才能作連結),且人物名稱沒有識別標示(無權威控制)。所以語意網需要本體(ontologies)(也就是控制詞彙):

本體可改進檢準率[precision],還可將網頁上的資訊與相關的知識結構及推論規則相連繫起來(to relate the information on a page to the associated knowledge structures and inference rules)。

圖書館界已有很好的的詮釋資料 -- 識別標示(權威資料)及本體(控制辭彙),我們需要做的是:將這些資料轉變為語意(網)結構、讓資料(data)可供連結。

如果圖書館的權威資料(人名、劃一書名、主題…)成為Linked Data後會有什麼好處呢?例如,維基百科中的人名若連結到圖書館的人名權威檔,可建立網路上人名識別基本檔。正確的連結還需用到以規則為基礎和支持推理的運算法,有時也需人為判斷。

圖書館界其他許多詞彙(如:地區/語言代碼、資料類型代碼…),不論其他領域是否用到這些代碼。Linked Data可以用在“轉接”[switching]系統上:將不同領域的同義詞相連結,如此不同領域可分享詞彙、互相連結資料,也就是擴大原本自己的資源。

圖書館很重要的本體便是編目語言(the language of cataloging),其體現於MARC中。如將這些書目資料元素重整為語意網Linked Data的形式,則網路應用程式與書目資料可相容、許多圖書館領域外的網路開發者將獲益。

將圖書館的詮釋資料轉為Linked Data ,這發展並不遙遠,美國國會圖書館(LC)除已公布國會標題表(LCSH)的Linked Data外(註),也將陸續提供其他與書目記錄相關的控制詞彙或權威資料(Linked Data形式的)。

在NSDL詮釋資料註冊中心已登錄RDA(新編目規則)使用的資料元素,未來也將包括RDA中界定的詞彙及FRBR的資料元素及關係(relationships)項目。

這些具Linked Data形式的資料元素及詞彙放在網路上,提供了開發相關應用程式(它將運用這些詞彙)的一個基礎。

圖書館的Linked Data的推上網路,其意味著這些資料可在網路上普及和被任何網站利用,還有其他許多可能性,如:將圖書館目錄上的資料與網上其他資源相連結(運用演算法及搜尋方式將目錄中的作者條目與網上作者的網頁相連結)。

如維基百科及LibraryThing 等非圖書館單位已在使用圖書館的書目資料,未來被非圖書館單位使用的情形現還難以想像。OCLC WorldCat的識別檔(WorldCat Identities) 讓我們了解到:一旦圖書館資料從目錄中釋放出來,其豐富性可見。開放圖書館資料到網路上、以可連結的形態,這將使其豐富性在全球的範圍上得以拓展。
(原文末有 Link List -- 列出文章中提到的相關連結)

註:參見LC新網站:權威資料與控制詞彙(Authorities and Vocabularies) (秋聲Blog)

[相關資料]
关联数据四原则关联数据FAQ (數圖研究笔記)
編目朝向語意網邁進(一) (秋聲Blog)

沒有留言: