秋聲 Blog: 6月 2009

2009/06/29

OCLC對詮釋資料(metadata)的一些新思維

OCLC世界書刊目錄詮釋資料網(WorldCat Metadata Network )的主管Ted Fons 日前在加拿大圖書館學會年會作了簡報 -- New Thinking on Metadata Management, Exposure & Quality(對詮釋資料管理、揭示與品質的新思維)。從這份報告可略窺OCLC的一些想法及作法；另外我也簡單比較了WorldCat與Amazon書目資訊呈現的異同。

Fons用季節來述說對OCLC詮釋資料(metadata)的看法：
夏 – metadata檢索與品質的新思考方向
秋 – 讀者及館員對metadata的期望
冬 – 對metadata管理想法的挑戰
春 – 使用metadata 的新方式

夏 – metadata檢索與品質的新思考方向(or Thoughts of Metadata Management)

需與出版界的ONIX書目資料交流互通(S9)*、 WorldCat Mobile 將資訊推送至讀者、提供WorldCat API及OCLC 網路服務(如：xISBN、WorldCat Identities)(S11-12)。
.
秋 – 讀者及館員對metadata的期望

根據OCLC日前的研究報告：Online Catalogs: What Users and Librarians Want (線上目錄：讀者及館員想要什麼)(註1)，讀者想要的是：線上目錄看起來像一般通俗網站、有摘要及目次、有助找尋所需資訊；而館員想要的是：對讀者資訊需求提供服務、幫助工作人員執行任務、有正確的,結構性資料、展現傳統(資訊)組織的原則。

讀者對(詮釋資料)品質(quality)的定義受到常用蒐尋引擎習性的影響(如：憑一些適當關鍵字就可找到任何東西、想要全文)。傳統上，書籍按杜威分類法安排，但亞馬遜網路書店(Amazon)提供另一種相關書籍資訊的方式，我們可整合雙方的優點來重訂圖書館線上目錄“品質”(quality)的意含。

[可參考大陸編目精靈的文章：OCLC报告——联机目录：用户和馆员需要什么，已將這份報告的重點列出，或參見Slide27及34讀者及館員對線上目錄的建議。]

冬 – 對metadata管理想法的挑戰
.
何改進WorldCat的品質：Fons引用了Davis Lankes投影片(PDF/95頁)中的兩張(S42-43) ，看起來Amazon的書目資訊較豐富。

我以一本書(書名：Watership Down；作者：Richard Adams)來比較WorldCat 及Amazon 書目的呈現(見文末的圖)。WorldCat似乎已改進不少。
.
另，OCLC從2009年2月起(半年)實行一專家社群的“社會編目”實驗(見Expert Community Experiment)，讓更多有權限的圖書館參與修改書目主檔記錄(WorldCat master records)。此外還採“證據為基礎的編目”(註2)、重新修訂相關工作流程。

春 – 使用metadata 的新方式 (or Spring & New Thinking about Discovery and Works)

可望新建立“作品頁面”(work pages beta)( S63 -- )，根據FRBR中實體“WORK”的觀念，讀者可用“作品”為資訊查詢或發現的入口路徑。
.
註1：Online Catalogs: What Users and Librarians Want (PDF/68頁) 或參見 OCLC Karen Calhoun 的投影片 Online Catalogs: What Users and Librarians Want: a review of market research data 。
.
註2：“證據為基礎的編目”(evidence-based cataloging)：參見slide 38 “[Catalogers] need to practice evidence-based cataloging. They need to catalog based on the evidence that they can find for the effectiveness of particular practices, and they need to judge their output according to this evidence.”(Hilder & Tan) ，即編目作業要能找到具有成效的證據。
.
相關連結
社会编目 Social Cataloging(編目精靈)
.
* S# 表示投影片(slide)的順序
-----------------------------------------------------------------------------------
Watership Down by Richard Adams

圖1：WorldCat書目
圖2：Amazon書目
圖3：WorldCat Identities 作者頁面
圖4：Amazon 作者頁面
.

圖1

圖2

圖3

圖4
.
兩方有趣處：
A.書目部份

(WorldCat)“讀過這書的人也讀XXX”和(Amazon)“買這書的人也買XXX”之間XXX書籍的差異、

主題/類別方面：
WorldCat用LCSH: Rabbits -- Fiction.及Fantasy fiction, English；
Amazon的分類: Books > Literature & Fiction > Classics、
Books > Literature & Fiction > Literary 、
Books > Science Fiction & Fantasy > Authors, A-Z > ( A ) > Adams, Richard 、
Books > Science Fiction & Fantasy > Fantasy > Epic ；還有使用者訂的tags

●我喜歡Amazon 的“Inside This Book/ Search inside this book”、 Citations …

B. 作者頁面部分：

WorldCat: Publication Timeline、Alternative Names(人名權威控制)
Amazon: 簡傳、肖像

2009/06/22

圖書館的鏈接資料(linked data)：基礎篇(下)

■ Library Journal 2009年4月15日出版的 netConnect，其中有篇Fiona Bradley 寫的Discovering Linked Data(發現鏈接資料)，簡介了Linked Data的好處及一些運用的情形，摘譯如下：

針對讀者資料檢索的結果，圖書館另外提供更有意義及有幫助的訊息讓讀者去“發現”更多、更適用的資訊，鏈接資料(關聯數據，Linked Data)即有這種功用。若圖書館的書目等資料轉變為Linked Data後，可使其他搜尋平台上的使用者能探索到圖書館領域的資料。以下將提到一些運用Linked Data的例子。

Linked Data和語意網是有關係的，Linked Data用其URIs(統一資源標示符)去作連結，URI是一項資料(data)的唯一的標示符(unique key)。

針對識別詞彙(identified terms，擁有URI)，現已制定了許多 “本體”(ontologies)，用來表示詞彙的概念及詞彙之間的關係，例如 FOAF(Friend of a Friend) 是描述人們及其人際關係(describes people and their relationships)。

擴展(OPAC)“發現層級”(Extending the discovery layer)

一些提昇圖書館OPAC的軟體或服務(如：AquaBrowser、LibraryThing for Libraries…)所能觸及的資訊仍止於圖書館資源單件的層次(at item level)；尚未能提供書目記錄中的元素(如：作者、主題、地名…)的許多其他相關資訊。

開放原始碼軟體(an open source presentation layer )VuFind 已開始將許多外界資訊帶入圖書館目錄中，它為目錄中的每位作者都建立一個頁面，並將維基百科的資料整合進來。

下一步就是要擴大圖書館的目錄到圖書館之外去。不只是提供圖書館資源本身的訊息，還連結至更廣大的資訊，提供“關於…”(aboutness)的資訊—即每件圖書館資源所描寫到的人、地的資訊。這可幫助讀者決定他們所需，也提供他們一個探索的起點。

國家範圍的鏈接資料(National-scale Linked Data)

雖然許多圖書館的目錄提供外界資訊連結到書目記錄[如：提供維基百科的相關資訊連結至某筆書目記錄]，但並非採用機讀的方式。而瑞典的LIBRIS 聯合目錄則是利用RDF及URIs去連結他們自己的資源及外界資源，瑞典國家圖書館已做到連結至維基百科的Linked Data資料庫DBpedia。
.

美國國會圖書館(LC)也提供了國會標題表(LCSH)的Linked Data供眾查閱及下載(註1)，LC稱使用Linked Data可能的好處包括：減低伺服器的承載、作為他館的範例。

標準及協定(Standards and protocols)

Linked Data 基本上不專屬於任何社群，它有足夠彈性與圖書館或其他領域使用的協定、本體或詞彙集相容。要能夠使用OAI-PMH、OAI-ORE及都柏林核心集來建立Linked Data (OAI-PMH, OAI-ORE, and Dublin Core can and should be used in creating Linked Data…)。

又如開放原始碼內容管理系統Drupal 走向能夠處理RDF內容、使其更親近語意網。

資料保存管理觀念的演變(Data curation)

電腦處理能力的增加使得資料的再利用(如：混搭mashup)更可行。使用RDF或微格式(microformat)(註2)是達到語意網親和性(Semantic Web-friendly)的方式。

歐洲數位圖書館Europeana 重視互通性，並使用SKOS，且Europeana正在開發語意的搜尋界面。

資料運用的深化(?)(Deep dashboards)

為各種不同的用途，圖書館常會再利用(reuse)書目資料。而Linked Data是結構化的資料，它使資料的再利用能很快速。

下一步(The next step)

Linked Data給圖書館機會去進一步處理/運用自有的資料、提供更多資訊供讀者去發掘(for discovery)及分享資源。將圖書館的資料變為Linked Data會增加連回至圖書館的數量(機會)( Making this data available for linking increases the number of pathways back to the library)。
.

■ 另一份關於Linked Data的投影片是Daniel Chudnov 的Better Living through Linking，舉有實例來解釋Linked Data，其中 slide 116(如下)顯示Eximious 這張唱片的書目記錄(Linked Data)有清楚的URI(clean URI)：
.

http://lccn.loc.gov/84759993(以LC控制號為基礎構成的URI)

還有slide 119及120顯示書目記錄中資料元素(機讀)標示的情形，提供很好的概觀。

[感想]

正如netConnect 導言Data in Context(資料在背景脈絡中)一文所說：“語意網引人注意的是它具有潛力在表層網路之下，去建立 -- 對使用者及對機器兩者的 -- 相關資料和背景含意的一個基礎結構 (it has the potential to build beneath the surface web a fabulous underlying structure of interrelated data and context meaningful to both users and machines)。但目前我們仍不清楚如何從現在的網路到達那兒[語意網]，所以我們從小處開始，盡我們所能將各處的資料連結起來、一步步做下去。”

圖書館書目資料處理的方式勢將隨網路科技而變，而圖書館的結構化書目資料應可繼續發揮其價值。

註1：參見LC新網站：權威資料與控制詞彙(Authorities and Vocabularies)(秋聲Blog)
註2：可參考這期Library Journal netConnect 另一篇文章：Microformats: Context Inline :Karen Coombs sees microformats as a quick and easy way to embed contextual information into your library's site.

2009/06/14

圖書館的鏈接資料(linked data)：基礎篇(上)

圖書館的書目資料走上語意網—這已不是夢。

在資訊與知識傳播及服務方面，圖書館在將來需與其他相關者(如Google、出版者)扮演重要的角色。而圖書館如何將其大量的書目、內容...等很有價值的資料(數據)釋放到網路上，讓它們充分被利用(如混搭mashup)，甚至“活化”，讓其價值發揮到最大，這是圖書館得以立足於未來網路世界的重要基礎。

Web 2.0 已朝向 Web 3.0 進化，是Web of Data ( “資料/數據”為主的網路)，也是語意網的時代。其中重要觀念與作法包括：網路上的相關資料(data) 必需充分且適當加以“連結”，使資料變為所謂“鏈接資料”(Linked Data，或稱為“關聯數據”)(例子)，如此才利於電腦處理、利於搜尋與查檢。而圖書館的書目資料的處理也必需有新的作法。

Library Journal 2009年4月15日出版的專刊 netConnect，其中幾篇文章是從圖書館的角度來講述鏈接資料(Linked Data)，算是入門的介紹，現摘譯Coyle寫的這篇如下：

● Making Connections (建立連結) by Karen Coyle

從文檔到數據From documents to data

在網頁上的文字資料，其中有些字會有超連結；若稱這些字為資料元素(data element)，則資料元素與相關資料元素之間會有一種有意義的連結，例如我們說資料元素A與資料元素B有一種關係X，[在語意網]這種“關係”(relationship)不僅讓人可以領會且讓機器也可以處理。

一些文句對人來說很容易懂，但對機器則不然。例如一個句子：“Herman Melville是《白鯨記》的作者”，人們懂得這句子的意思是因為人們透過背景資料(上下文資料)知道Herman Melville是個人、《白鯨記》是部作品、“…的作者”(author of)是指Herman Melville寫了這本書。如果要讓電腦程式處理這些資料，就需提供它能了解的背景資料(上下文資料)。因此，讓機器來了解語意，需有下面三個要素：識別標示(identities)、關係(relationships)、及規則(rules)。

識別標示(Identities)

對鏈接資料(Linked Data)來說，[文詞的]概念及關係的識別是很重要的。例如：我們談話時提到地名“Georgia”(喬治亞)，我們會很清楚指的是(美國)喬治亞州或東歐的喬治亞共合國。但在語意網環境下，需要對喬治亞州及喬治亞共合國作不同的標示，因為電腦很難了解上下文，另外，我們可能在別的情況(別的上下文)也會用到這些詞彙。我們使用URI(統一資源標示符)作為識別標示，開頭以 http://.../ 來表示。

聚集許多識別詞彙(identified terms)便成為“詞彙集”(vocabularies)，或在語意網中稱為“本體”(ontologies)。這些詞彙各有其URI。多半情況，詞彙具有含義，其URI可指向某一描述此詞彙的文件，或提供機器處理所需的其他資訊。有個語意網的標準叫“簡單知識組織系統”(Simple Knowledge Organization System，SKOS)，它將詞彙的結構界定為索引典的形式(有上、下位詞…)。這些詞彙可能在相關的註冊單位登記了。電腦程式能利用這些詞彙(連同詞彙關係，機讀的)，也能利用應用程式界面中詞彙的定義(人可讀的)。

關係(Relationships)

舉例說明：
John Smith與Betty Jones 有一種關係X ；另外George Johnson與Betty Jones 也有一種關係X
機器並不懂“關係X”是什麼意思，但如果你問：誰與Betty Jones有一種“關係X”時，機器運算後能回答：John Smith及George Johnson。

規則(Rules)

在語意網，規則因涉及推理(inference)，所以是很重要的。簡單的數學推理：
如果A=B 且B=C，則 A=C

語意網的運作就要靠許多規則(機讀的)。語意網中規則的基礎檢索標準是SPARQL(查詢語言)，供語意網資料查詢之用。

再舉個例子：
-------------------------------------------------------------------------
詞彙(Term): 叢書(Series)
標示符(Identifier): http://www.example.com/publishingTerms/3279
定義(Definition): 一群文件(資料)，先後出版(A group of documents published in an order over time)

詞彙(Term): 圖書(Book)
標示符(Identifier): http://www.example.com/publishingTerms/101
定義(Definition): 一份獨立出版的文件(資料)(An ind ependently published document)

關係(Relationship): 屬於XXX的成員(isMemberOf)
標示符(Identifier): http://www.example.com/publishingTerms/73
定義(Definition): 屬於(某)一套(Belonging to a set)

規則(Rules):
圖書可以是屬於叢書的成員(Book can be “isMemberOf” Series)
叢書不能是圖書的成員(Series cannot be “isMembe rOf” Book)
叢書可定義為所有的總合(Series can be defined as the sum of all)
圖書具有“屬於XXX的成員”這種關係(Books with relationship isMemberOf)

為提供更多圖書或叢書的資訊，你可擴展規則：
叢書可以按叢書號排序(Series can be ordered by: series number)
叢書可以按出版日期排序(Series can be ordered by: publication date)
---------------------------------------------------------------------------
藉著詞彙、規則及關係，在網路上任何地方，叢書裡的圖書才能被識別(can be identified)及按序顯示。

Linked Data很重要的特色是“連結”(links)能遍及整個網路。例如：一本書連到一套叢書，此連結只需定義一次，即可用於這本書在網路上的所有情況。連結(links)可以很容易變為“鏈”(chains)，它可以從一本書轉移到一套叢書、然後再轉移到叢書中的其他圖書 (Links easily become chains that can move from a single book to a series and then to all of the other books in that series) 。

Dbpedia資料庫便是根據維基百科所建立的Linked Data資料集(data set)。

與圖書館資料相連結 Linking it all to libraries

語意網面臨的問題除了網路上的文檔資料(documents)普遍未含標記(markup，有此才能作連結)，且人物名稱沒有識別標示(無權威控制)。所以語意網需要本體(ontologies)(也就是控制詞彙)：

本體可改進檢準率[precision]，還可將網頁上的資訊與相關的知識結構及推論規則相連繫起來(to relate the information on a page to the associated knowledge structures and inference rules)。

圖書館界已有很好的的詮釋資料 -- 識別標示(權威資料)及本體(控制辭彙)，我們需要做的是：將這些資料轉變為語意(網)結構、讓資料(data)可供連結。

如果圖書館的權威資料(人名、劃一書名、主題…)成為Linked Data後會有什麼好處呢？例如，維基百科中的人名若連結到圖書館的人名權威檔，可建立網路上人名識別基本檔。正確的連結還需用到以規則為基礎和支持推理的運算法，有時也需人為判斷。

圖書館界其他許多詞彙(如：地區/語言代碼、資料類型代碼…)，不論其他領域是否用到這些代碼。Linked Data可以用在“轉接”[switching]系統上：將不同領域的同義詞相連結，如此不同領域可分享詞彙、互相連結資料，也就是擴大原本自己的資源。

圖書館很重要的本體便是編目語言(the language of cataloging)，其體現於MARC中。如將這些書目資料元素重整為語意網Linked Data的形式，則網路應用程式與書目資料可相容、許多圖書館領域外的網路開發者將獲益。

將圖書館的詮釋資料轉為Linked Data ，這發展並不遙遠，美國國會圖書館(LC)除已公布國會標題表(LCSH)的Linked Data外(註)，也將陸續提供其他與書目記錄相關的控制詞彙或權威資料(Linked Data形式的)。

在NSDL詮釋資料註冊中心已登錄RDA(新編目規則)使用的資料元素，未來也將包括RDA中界定的詞彙及FRBR的資料元素及關係(relationships)項目。

這些具Linked Data形式的資料元素及詞彙放在網路上，提供了開發相關應用程式(它將運用這些詞彙)的一個基礎。

圖書館的Linked Data的推上網路，其意味著這些資料可在網路上普及和被任何網站利用，還有其他許多可能性，如：將圖書館目錄上的資料與網上其他資源相連結(運用演算法及搜尋方式將目錄中的作者條目與網上作者的網頁相連結)。

如維基百科及LibraryThing 等非圖書館單位已在使用圖書館的書目資料，未來被非圖書館單位使用的情形現還難以想像。OCLC WorldCat的識別檔(WorldCat Identities) 讓我們了解到：一旦圖書館資料從目錄中釋放出來，其豐富性可見。開放圖書館資料到網路上、以可連結的形態，這將使其豐富性在全球的範圍上得以拓展。
(原文末有 Link List -- 列出文章中提到的相關連結)

註：參見LC新網站：權威資料與控制詞彙(Authorities and Vocabularies) (秋聲Blog)

[相關資料]
关联数据四原则、关联数据FAQ (數圖研究笔記)
編目朝向語意網邁進(一) (秋聲Blog)

2009/06/06

[生活雜記]尋訪記憶中的城樓

昨天到北市青少年育樂中心替孩子報名夏令營，有機會探訪附近的“城樓”及自己唸過書的小學。

雨後、正午、日正當中，我站在林森南路與仁愛路口“城樓”前面，似曾相識的場景，但覺茫然。如何講述記憶中的“城樓”呢？或許下面左圖(還有ANT's圖及雪泥's圖)能表達部分意象：

左圖: http://catalog.digitalarchives.tw/?URN=3140319

以前是走路上學，從杭州北路到東門國小，不短的路程(如文末的地圖)。記得雨天時穿著長雨衣，走經城樓，雨衣濕答答的下襬常會黏在小腿肚上，這時會扯扯衣襬讓它分開…

上、下學都會經過城樓，但很少走進去過，因為它看起來有些怪。後來不知經過n年，發現它完全變了個樣，如今它叫“東和禪寺的鐘樓”，樓壁刷白得有些不自然、黑瓦應是重鋪的，孤零零站在現代建築森林中，顯得微小和些許神秘。(上面右圖)

試著找個位置、試著從兒時的視角、試著回想 … 但自己似乎沒有辦法，是記憶太模糊、還是滄海桑田？

對個體生命而言，許多"瞬間"已不經意成為生命的烙印、永恆的記憶與懷想；對整體人群而言，小小的鐘樓是個象徵，它背負了許多人的對歷史的追念。

回望那十字路口的學童，他們正朝我而來，親愛的孩子啊！

[其他資料上的記載]：

“然在光復後為軍隊借住，違章建築逐漸增加，終使景觀大遭破壞。唯寺內鐘樓，在1997年被台北市政府列為市定古蹟。(《台灣佛教辭典》選刊東和寺).

“戰後，觀音禪寺改名為東和禪寺，由於受軍隊及民眾長期佔住遭到破壞毀損，也被違章建築所包圍…([台北]東和禪寺鐘樓/水瓶子)

“一九三０年在大殿之前建造高聳的鐘樓，目前仍存在，但大殿及其他古老的建築因曾被軍隊及民眾佔住長期遭到破壞，近年被拆掉了，至為可惜。(東和禪寺鐘樓/台北市政府文化局)
.
“民國八十一年，為了興建青少年育樂中心，台北市教育局計畫拆除東和禪寺和鐘樓，古蹟保存人士群起抗議。經過折衝，教育局只同意保留鐘樓，次年，市政府拆除東和禪寺大殿和佔用土地的違章住宅。(台北旅遊網)
.
參考資料：
東和禪寺鐘樓(維基百科)
日式和風建築--東和禪寺鐘樓(堅仔的Blog)
.

在較大的地圖上查看Debra 國小上學路線

rev. 20090606 23:20

訂閱：文章 (Atom)