2009/05/13

LC新網站:權威資料與控制詞彙(Authorities and Vocabularies)

●[簡介]

美國國會圖書館(Library of Congress, LC)在眾人引頸期盼下終於在2009.5.1公佈一個官方新網站 – Authorities and Vocabularies (權威資料與控制詞彙) ( http://id.loc.gov/authorities/)(註1),它提供人及機器來取用LC的權威資料(authority data),採用鏈接資料(linked data)的方法(即透過統一資源標誌符URI來連結相關資料)(註2)。

此網站目前提供了34萬多筆的控制詞彙記錄供免費使用,首先提供的是國會標題表(Library of Congress Subject Heading, LCSH)(註3),今後會陸續增加更多控制詞彙集(如:圖像資料索引典TGM、MARC地區代碼…等)。

將LCSH的標題詞彙變為linked data,即是每個標題詞都有URI,如:標題詞 -- "Semantic Web"(語意網) 的URI是 http://id.loc.gov/authorities/sh2002000569#concept 。每個詞彙(term)都有其詳細資料頁面及視覺關係圖,如下面圖例:



..


詞彙的詳細資料可供下載,在頁面最下方有三種格式: (Alternate Formats) RDF/XML, N-Triples, JSON)(註4),另參見“技術中心”(Technical Center)頁面的說明。

●[感想]

誠如遠洋老師(遠洋過客)轉來的信息中提到:LCSH in SKOS now "officially" available. The primary goal of this service is to enable machines to programmatically access data at the Library of Congress but the web interface also provides simple user access. We view this service as a step toward exposing and interconnecting vocabulary and thesaurus data via URLs. LC的權威資料與控制詞彙一旦成為linked data後,便可供機器處理(透過程式),圖書館加值資料才能真正融入Web環境中。也如雨僧所說:“它[指LC這新網站]的第一服務物件是機器而不是人,機器是主體,人是附帶的,所以這個服務的啟動,其意義是深遠的…”。

在由document web邁向data web(或稱web of data,語意網的)時(註5),諸如圖書館的data(如:LCSH、RDA…等控制詞彙) 的表述都需經過適當的轉變,讓機器可處理及可再利用,同時與廣大網路上的概念或詞彙相連結、並開放供眾利用 – 這便是開放性鏈接資料 (linked open data, LOD),應是網路及資訊檢索未來的道路。
.
註1:在去年(2008)5-6月(?)時LC的職員Ed Summers曾公佈一網站lcsh.org,將LCSH以鏈接資料的方式表述,算是現在正式官網的前身,後來在12月時LC要他撤除。參見Summers的UNCOOL URIS (http://lcsh.info/comments1.html),及Keven的SKOS版的LCSH 有相當清楚的解說。

註2:Linked data,有譯為鍵連資料(維基)、關連數據(大陸Keven),這裡暫參考國立編譯館的學術名詞資訊網中linked data structure (鏈接資料結構),將linked data譯為“鏈接資料”。
“鍵連資料是正在快速發展的語義網的一系列的活動,它描述了一套在全球資訊網上發佈、分享、及連結資料的方法。主要以可參照的URI作為最基本的要素、以RDF作為描述連結的語言。”(維基)

另可參閱:
关联的数据 (Linked Data)--1. Linked Open Data (LOD)(遠洋過客)
关联的数据 (Linked Data)--2. 关联的图书馆数据Linked Library Data(遠洋過客)
语义互操作与关联数据 (ppt) (Keven)

註3:國會標題表(LCSH)現在有紙本(第31版,2008-2009);也有web版(Classification Web,和國會分類法一併販售)。或直接查閱Library of Congress Authorities(LC的權威檔),免費線上查詢、且有MARC記錄。

註4:
N-triples:N-Triples is a line-based, plain text serialisation format for RDF (Resource Description Framework) graphs(維基解釋);或參考“RDF/XML 並不是 RDF 模型的唯一表示。W3C 開發了 N-Triples,這是一種特別適合於測試套件的 RDF 表示格式…”(Thinking XML: N-Triples 簡介用於 RDF 的一種更簡單的序列化)。

Json(Javascript Object Notation)是一種輕量級的資料交換語言,以文字為基礎,且易於讓人閱讀。儘管JSON是在Javascript的一個子集,但JSON是獨立於語言的文字格式,並且採用了類似於C語言家族的一些習慣。(維基解釋)

註5:语义互操作与关联数据 (ppt) (Keven/劉煒) slide 26

[其他參考資料]
Linked Data - Connect Distributed Data across the Web
The Web of Data: Creating Machine-Accessible Information (ReadWriteWeb 20090417)

沒有留言: