顯示具有 linked data 標籤的文章。 顯示所有文章
顯示具有 linked data 標籤的文章。 顯示所有文章

2009/06/22

圖書館的鏈接資料(linked data):基礎篇(下)

Library Journal 2009年4月15日出版的 netConnect,其中有篇Fiona Bradley 寫的Discovering Linked Data(發現鏈接資料),簡介了Linked Data的好處及一些運用的情形,摘譯如下:

針對讀者資料檢索的結果,圖書館另外提供更有意義及有幫助的訊息讓讀者去“發現”更多、更適用的資訊,鏈接資料(關聯數據,Linked Data)即有這種功用。若圖書館的書目等資料轉變為Linked Data後,可使其他搜尋平台上的使用者能探索到圖書館領域的資料。 以下將提到一些運用Linked Data的例子。

Linked Data和語意網是有關係的,Linked Data用其URIs(統一資源標示符)去作連結,URI是一項資料(data)的唯一的標示符(unique key)。

針對識別詞彙(identified terms,擁有URI),現已制定了許多 “本體”(ontologies),用來表示詞彙的概念及詞彙之間的關係,例如 FOAF(Friend of a Friend) 是描述人們及其人際關係(describes people and their relationships)。

擴展(OPAC)“發現層級”(Extending the discovery layer)

一些提昇圖書館OPAC的軟體或服務(如:AquaBrowserLibraryThing for Libraries…)所能觸及的資訊仍止於圖書館資源單件的層次(at item level);尚未能提供書目記錄中的元素(如:作者、主題、地名…)的許多其他相關資訊。

開放原始碼軟體(an open source presentation layer )VuFind 已開始將許多外界資訊帶入圖書館目錄中,它為目錄中的每位作者都建立一個頁面,並將維基百科的資料整合進來。

下一步就是要擴大圖書館的目錄到圖書館之外去。不只是提供圖書館資源本身的訊息,還連結至更廣大的資訊,提供“關於…”(aboutness)的資訊—即每件圖書館資源所描寫到的人、地的資訊。這可幫助讀者決定他們所需,也提供他們一個探索的起點。

國家範圍的鏈接資料(National-scale Linked Data)

雖然許多圖書館的目錄提供外界資訊連結到書目記錄[如:提供維基百科的相關資訊連結至某筆書目記錄],但並非採用機讀的方式。而瑞典的LIBRIS 聯合目錄則是利用RDF及URIs去連結他們自己的資源及外界資源,瑞典國家圖書館已做到連結至維基百科的Linked Data資料庫DBpedia。
.
美國國會圖書館(LC)也提供了國會標題表(LCSH)的Linked Data供眾查閱及下載(註1),LC稱使用Linked Data可能的好處包括:減低伺服器的承載、作為他館的範例。

標準及協定(Standards and protocols)

Linked Data 基本上不專屬於任何社群,它有足夠彈性與圖書館或其他領域使用的協定、本體或詞彙集相容。要能夠使用OAI-PMHOAI-ORE及都柏林核心集來建立Linked Data (OAI-PMH, OAI-ORE, and Dublin Core can and should be used in creating Linked Data…)。

又如開放原始碼內容管理系統Drupal 走向能夠處理RDF內容、使其更親近語意網。

資料保存管理觀念的演變(Data curation)

電腦處理能力的增加使得資料的再利用(如:混搭mashup)更可行。使用RDF或微格式(microformat)(註2)是達到語意網親和性(Semantic Web-friendly)的方式。

歐洲數位圖書館Europeana 重視互通性,並使用SKOS,且Europeana正在開發語意的搜尋界面。

資料運用的深化(?)(Deep dashboards)

為各種不同的用途,圖書館常會再利用(reuse)書目資料。而Linked Data是結構化的資料,它使資料的再利用能很快速。

下一步(The next step)

Linked Data給圖書館機會去進一步處理/運用自有的資料、提供更多資訊供讀者去發掘(for discovery)及分享資源。將圖書館的資料變為Linked Data會增加連回至圖書館的數量(機會)( Making this data available for linking increases the number of pathways back to the library)。
.
另一份關於Linked Data的投影片是Daniel Chudnov 的Better Living through Linking,舉有實例來解釋Linked Data,其中 slide 116(如下)顯示Eximious 這張唱片的書目記錄(Linked Data)有清楚的URI(clean URI):
.

http://lccn.loc.gov/84759993(以LC控制號為基礎構成的URI)

還有slide 119及120顯示書目記錄中資料元素(機讀)標示的情形,提供很好的概觀。

[感想]

正如netConnect 導言Data in Context(資料在背景脈絡中)一文所說:“語意網引人注意的是它具有潛力在表層網路之下,去建立 -- 對使用者及對機器兩者的 -- 相關資料和背景含意的一個基礎結構 (it has the potential to build beneath the surface web a fabulous underlying structure of interrelated data and context meaningful to both users and machines)。但目前我們仍不清楚如何從現在的網路到達那兒[語意網], 所以我們從小處開始,盡我們所能將各處的資料連結起來、一步步做下去。”

圖書館書目資料處理的方式勢將隨網路科技而變,而圖書館的結構化書目資料應可繼續發揮其價值。

.
註1:參見LC新網站:權威資料與控制詞彙(Authorities and Vocabularies)(秋聲Blog)
註2:可參考這期Library Journal netConnect 另一篇文章:Microformats: Context Inline :Karen Coombs sees microformats as a quick and easy way to embed contextual information into your library's site.

2009/06/14

圖書館的鏈接資料(linked data):基礎篇(上)

圖書館的書目資料走上語意網—這已不是夢。

在資訊與知識傳播及服務方面,圖書館在將來需與其他相關者(如Google、出版者)扮演重要的角色。而圖書館如何將其大量的書目、內容...等很有價值的資料(數據)釋放到網路上,讓它們充分被利用(如混搭mashup),甚至“活化”,讓其價值發揮到最大,這是圖書館得以立足於未來網路世界的重要基礎。

Web 2.0 已朝向 Web 3.0 進化,是Web of Data ( “資料/數據”為主的網路),也是語意網的時代。其中重要觀念與作法包括:網路上的相關資料(data) 必需充分且適當加以“連結”,使資料變為所謂“鏈接資料”(Linked Data,或稱為“關聯數據”)(例子),如此才利於電腦處理、利於搜尋與查檢。而圖書館的書目資料的處理也必需有新的作法。

Library Journal 2009年4月15日出版的專刊 netConnect,其中幾篇文章是從圖書館的角度來講述鏈接資料(Linked Data),算是入門的介紹,現摘譯Coyle寫的這篇如下:

Making Connections (建立連結) by Karen Coyle

從文檔到數據From documents to data

在網頁上的文字資料,其中有些字會有超連結;若稱這些字為資料元素(data element),則資料元素與相關資料元素之間會有一種有意義的連結,例如我們說資料元素A與資料元素B有一種關係X,[在語意網]這種“關係”(relationship)不僅讓人可以領會且讓機器也可以處理。

一些文句對人來說很容易懂,但對機器則不然。例如一個句子:“Herman Melville是《白鯨記》的作者”,人們懂得這句子的意思是因為人們透過背景資料(上下文資料)知道Herman Melville是個人、《白鯨記》是部作品、“…的作者”(author of)是指Herman Melville寫了這本書。如果要讓電腦程式處理這些資料,就需提供它能了解的背景資料(上下文資料)。因此,讓機器來了解語意,需有下面三個要素:識別標示(identities)、關係(relationships)、及規則(rules)。

識別標示(Identities)

對鏈接資料(Linked Data)來說,[文詞的]概念及關係的識別是很重要的。例如:我們談話時提到地名“Georgia”(喬治亞),我們會很清楚指的是(美國)喬治亞州或東歐的喬治亞共合國。但在語意網環境下,需要對喬治亞州及喬治亞共合國作不同的標示,因為電腦很難了解上下文,另外,我們可能在別的情況(別的上下文)也會用到這些詞彙。我們使用URI(統一資源標示符)作為識別標示,開頭以 http://.../ 來表示。

聚集許多識別詞彙(identified terms)便成為“詞彙集”(vocabularies),或在語意網中稱為“本體”(ontologies)。這些詞彙各有其URI。多半情況,詞彙具有含義,其URI可指向某一描述此詞彙的文件,或提供機器處理所需的其他資訊。有個語意網的標準叫“簡單知識組織系統”(Simple Knowledge Organization System,SKOS),它將詞彙的結構界定為索引典的形式(有上、下位詞…)。這些詞彙可能在相關的註冊單位登記了。電腦程式能利用這些詞彙(連同詞彙關係,機讀的),也能利用應用程式界面中詞彙的定義(人可讀的)。

關係(Relationships)

舉例說明:
John Smith與Betty Jones 有一種關係X ;另外George Johnson與Betty Jones 也有一種關係X
機器並不懂“關係X”是什麼意思,但如果你問:誰與Betty Jones有一種“關係X”時,機器運算後能回答:John Smith及George Johnson。

規則(Rules)

在語意網,規則因涉及推理(inference),所以是很重要的。簡單的數學推理:
如果A=B 且B=C,則 A=C

語意網的運作就要靠許多規則(機讀的)。語意網中規則的基礎檢索標準是SPARQL(查詢語言),供語意網資料查詢之用。

再舉個例子:
-------------------------------------------------------------------------
詞彙(Term): 叢書(Series)
標示符(Identifier): http://www.example.com/publishingTerms/3279
定義(Definition): 一群文件(資料),先後出版(A group of documents published in an order over time)

詞彙(Term): 圖書(Book)
標示符(Identifier): http://www.example.com/publishingTerms/101
定義(Definition): 一份獨立出版的文件(資料)(An ind ependently published document)

關係(Relationship): 屬於XXX的成員(isMemberOf)
標示符(Identifier): http://www.example.com/publishingTerms/73
定義(Definition): 屬於(某)一套(Belonging to a set)

規則(Rules):
圖書可以是屬於叢書的成員(Book can be “isMemberOf” Series)
叢書不能是圖書的成員(Series cannot be “isMembe rOf” Book)
叢書可定義為所有的總合(Series can be defined as the sum of all)
圖書具有“屬於XXX的成員”這種關係(Books with relationship isMemberOf)

為提供更多圖書或叢書的資訊,你可擴展規則:
叢書可以按叢書號排序(Series can be ordered by: series number)
叢書可以按出版日期排序(Series can be ordered by: publication date)
---------------------------------------------------------------------------
藉著詞彙、規則及關係,在網路上任何地方,叢書裡的圖書才能被識別(can be identified)及按序顯示。

Linked Data很重要的特色是“連結”(links)能遍及整個網路。例如:一本書連到一套叢書,此連結只需定義一次,即可用於這本書在網路上的所有情況。連結(links)可以很容易變為“鏈”(chains),它可以從一本書轉移到一套叢書、然後再轉移到叢書中的其他圖書 (Links easily become chains that can move from a single book to a series and then to all of the other books in that series) 。

Dbpedia資料庫便是根據維基百科所建立的Linked Data資料集(data set)。

與圖書館資料相連結 Linking it all to libraries

語意網面臨的問題除了網路上的文檔資料(documents)普遍未含標記(markup,有此才能作連結),且人物名稱沒有識別標示(無權威控制)。所以語意網需要本體(ontologies)(也就是控制詞彙):

本體可改進檢準率[precision],還可將網頁上的資訊與相關的知識結構及推論規則相連繫起來(to relate the information on a page to the associated knowledge structures and inference rules)。

圖書館界已有很好的的詮釋資料 -- 識別標示(權威資料)及本體(控制辭彙),我們需要做的是:將這些資料轉變為語意(網)結構、讓資料(data)可供連結。

如果圖書館的權威資料(人名、劃一書名、主題…)成為Linked Data後會有什麼好處呢?例如,維基百科中的人名若連結到圖書館的人名權威檔,可建立網路上人名識別基本檔。正確的連結還需用到以規則為基礎和支持推理的運算法,有時也需人為判斷。

圖書館界其他許多詞彙(如:地區/語言代碼、資料類型代碼…),不論其他領域是否用到這些代碼。Linked Data可以用在“轉接”[switching]系統上:將不同領域的同義詞相連結,如此不同領域可分享詞彙、互相連結資料,也就是擴大原本自己的資源。

圖書館很重要的本體便是編目語言(the language of cataloging),其體現於MARC中。如將這些書目資料元素重整為語意網Linked Data的形式,則網路應用程式與書目資料可相容、許多圖書館領域外的網路開發者將獲益。

將圖書館的詮釋資料轉為Linked Data ,這發展並不遙遠,美國國會圖書館(LC)除已公布國會標題表(LCSH)的Linked Data外(註),也將陸續提供其他與書目記錄相關的控制詞彙或權威資料(Linked Data形式的)。

在NSDL詮釋資料註冊中心已登錄RDA(新編目規則)使用的資料元素,未來也將包括RDA中界定的詞彙及FRBR的資料元素及關係(relationships)項目。

這些具Linked Data形式的資料元素及詞彙放在網路上,提供了開發相關應用程式(它將運用這些詞彙)的一個基礎。

圖書館的Linked Data的推上網路,其意味著這些資料可在網路上普及和被任何網站利用,還有其他許多可能性,如:將圖書館目錄上的資料與網上其他資源相連結(運用演算法及搜尋方式將目錄中的作者條目與網上作者的網頁相連結)。

如維基百科及LibraryThing 等非圖書館單位已在使用圖書館的書目資料,未來被非圖書館單位使用的情形現還難以想像。OCLC WorldCat的識別檔(WorldCat Identities) 讓我們了解到:一旦圖書館資料從目錄中釋放出來,其豐富性可見。開放圖書館資料到網路上、以可連結的形態,這將使其豐富性在全球的範圍上得以拓展。
(原文末有 Link List -- 列出文章中提到的相關連結)

註:參見LC新網站:權威資料與控制詞彙(Authorities and Vocabularies) (秋聲Blog)

[相關資料]
关联数据四原则关联数据FAQ (數圖研究笔記)
編目朝向語意網邁進(一) (秋聲Blog)