2009/11/06

人間天使

謹遙悼蘇諼 Sherry Shiuan Su ~ 我的同學 

您的堅毅將永存我心

願安息主懷



 
 
 
 
 
 
 
 
 
 
 
 
 
phto by maryn0503
http://www.flickr.com/photos/mnshots/2958270160/in/set-72157621891551636/

2009/06/29

OCLC對詮釋資料(metadata)的一些新思維

OCLC世界書刊目錄詮釋資料網(WorldCat Metadata Network )的主管Ted Fons 日前在加拿大圖書館學會年會作了簡報 -- New Thinking on Metadata Management, Exposure & Quality(對詮釋資料管理、揭示與品質的新思維)。從這份報告可略窺OCLC的一些想法及作法;另外我也簡單比較了WorldCat與Amazon書目資訊呈現的異同。

Fons用季節來述說對OCLC詮釋資料(metadata)的看法:
夏 – metadata檢索與品質的新思考方向
秋 – 讀者及館員對metadata的期望
冬 – 對metadata管理想法的挑戰
春 – 使用metadata 的新方式

夏 – metadata檢索與品質的新思考方向(or Thoughts of Metadata Management)

需與出版界的ONIX書目資料交流互通(S9)*、 WorldCat Mobile 將資訊推送至讀者、提供WorldCat API及OCLC 網路服務(如:xISBN、WorldCat Identities)(S11-12)。
.
秋 – 讀者及館員對metadata的期望

根據OCLC日前的研究報告:Online Catalogs: What Users and Librarians Want (線上目錄:讀者及館員想要什麼)(註1),讀者想要的是:線上目錄看起來像一般通俗網站、有摘要及目次、有助找尋所需資訊;而館員想要的是:對讀者資訊需求提供服務、幫助工作人員執行任務、有正確的,結構性資料、展現傳統(資訊)組織的原則。

讀者對(詮釋資料)品質(quality)的定義受到常用蒐尋引擎習性的影響(如:憑一些適當關鍵字就可找到任何東西、想要全文)。傳統上,書籍按杜威分類法安排,但亞馬遜網路書店(Amazon)提供另一種相關書籍資訊的方式,我們可整合雙方的優點來重訂圖書館線上目錄“品質”(quality)的意含。

[可參考大陸編目精靈的文章:OCLC报告——联机目录:用户和馆员需要什么,已將這份報告的重點列出,或參見Slide27及34讀者及館員對線上目錄的建議。]

冬 – 對metadata管理想法的挑戰
.
何改進WorldCat的品質:Fons引用了Davis Lankes投影片(PDF/95頁)中的兩張(S42-43) ,看起來Amazon的書目資訊較豐富。

我以一本書(書名:Watership Down;作者:Richard Adams)來比較WorldCat 及Amazon 書目的呈現(見文末的圖)。WorldCat似乎已改進不少。
.
另,OCLC從2009年2月起(半年)實行一專家社群的“社會編目”實驗(見Expert Community Experiment),讓更多有權限的圖書館參與修改書目主檔記錄(WorldCat master records)。此外還採“證據為基礎的編目”(註2)、重新修訂相關工作流程。

春 – 使用metadata 的新方式 (or Spring & New Thinking about Discovery and Works)

可望新建立“作品頁面”(work pages beta)( S63 -- ),根據FRBR中實體“WORK”的觀念,讀者可用“作品”為資訊查詢或發現的入口路徑。
.
註1:Online Catalogs: What Users and Librarians Want (PDF/68頁) 或參見 OCLC Karen Calhoun 的投影片 Online Catalogs: What Users and Librarians Want: a review of market research data
.
註2:“證據為基礎的編目”(evidence-based cataloging):參見slide 38 “[Catalogers] need to practice evidence-based cataloging. They need to catalog based on the evidence that they can find for the effectiveness of particular practices, and they need to judge their output according to this evidence.”(Hilder & Tan) ,即編目作業要能找到具有成效的證據。
.
相關連結
社会编目 Social Cataloging(編目精靈)
.
* S# 表示投影片(slide)的順序
-----------------------------------------------------------------------------------
Watership Down by Richard Adams

圖1:WorldCat書目
圖2:Amazon書目
圖3:WorldCat Identities 作者頁面
圖4:Amazon 作者頁面
.
圖1 圖2

圖3 圖4
.
方有趣處:
A.書目部份

(WorldCat)“讀過這書的人也讀XXX”和(Amazon)“買這書的人也買XXX”之間XXX書籍的差異、

主題/類別方面:
WorldCat用LCSH: Rabbits -- Fiction.Fantasy fiction, English
Amazon的分類: Books > Literature & Fiction > Classics、
Books > Literature & Fiction > Literary 、
Books > Science Fiction & Fantasy > Authors, A-Z > ( A ) > Adams, Richard 、
Books > Science Fiction & Fantasy > Fantasy > Epic ;還有使用者訂的tags

●我喜歡Amazon 的“Inside This Book/ Search inside this book”、 Citations …

B. 作者頁面部分:

WorldCat: Publication Timeline、Alternative Names(人名權威控制)
Amazon: 簡傳、肖像

2009/06/22

圖書館的鏈接資料(linked data):基礎篇(下)

Library Journal 2009年4月15日出版的 netConnect,其中有篇Fiona Bradley 寫的Discovering Linked Data(發現鏈接資料),簡介了Linked Data的好處及一些運用的情形,摘譯如下:

針對讀者資料檢索的結果,圖書館另外提供更有意義及有幫助的訊息讓讀者去“發現”更多、更適用的資訊,鏈接資料(關聯數據,Linked Data)即有這種功用。若圖書館的書目等資料轉變為Linked Data後,可使其他搜尋平台上的使用者能探索到圖書館領域的資料。 以下將提到一些運用Linked Data的例子。

Linked Data和語意網是有關係的,Linked Data用其URIs(統一資源標示符)去作連結,URI是一項資料(data)的唯一的標示符(unique key)。

針對識別詞彙(identified terms,擁有URI),現已制定了許多 “本體”(ontologies),用來表示詞彙的概念及詞彙之間的關係,例如 FOAF(Friend of a Friend) 是描述人們及其人際關係(describes people and their relationships)。

擴展(OPAC)“發現層級”(Extending the discovery layer)

一些提昇圖書館OPAC的軟體或服務(如:AquaBrowserLibraryThing for Libraries…)所能觸及的資訊仍止於圖書館資源單件的層次(at item level);尚未能提供書目記錄中的元素(如:作者、主題、地名…)的許多其他相關資訊。

開放原始碼軟體(an open source presentation layer )VuFind 已開始將許多外界資訊帶入圖書館目錄中,它為目錄中的每位作者都建立一個頁面,並將維基百科的資料整合進來。

下一步就是要擴大圖書館的目錄到圖書館之外去。不只是提供圖書館資源本身的訊息,還連結至更廣大的資訊,提供“關於…”(aboutness)的資訊—即每件圖書館資源所描寫到的人、地的資訊。這可幫助讀者決定他們所需,也提供他們一個探索的起點。

國家範圍的鏈接資料(National-scale Linked Data)

雖然許多圖書館的目錄提供外界資訊連結到書目記錄[如:提供維基百科的相關資訊連結至某筆書目記錄],但並非採用機讀的方式。而瑞典的LIBRIS 聯合目錄則是利用RDF及URIs去連結他們自己的資源及外界資源,瑞典國家圖書館已做到連結至維基百科的Linked Data資料庫DBpedia。
.
美國國會圖書館(LC)也提供了國會標題表(LCSH)的Linked Data供眾查閱及下載(註1),LC稱使用Linked Data可能的好處包括:減低伺服器的承載、作為他館的範例。

標準及協定(Standards and protocols)

Linked Data 基本上不專屬於任何社群,它有足夠彈性與圖書館或其他領域使用的協定、本體或詞彙集相容。要能夠使用OAI-PMHOAI-ORE及都柏林核心集來建立Linked Data (OAI-PMH, OAI-ORE, and Dublin Core can and should be used in creating Linked Data…)。

又如開放原始碼內容管理系統Drupal 走向能夠處理RDF內容、使其更親近語意網。

資料保存管理觀念的演變(Data curation)

電腦處理能力的增加使得資料的再利用(如:混搭mashup)更可行。使用RDF或微格式(microformat)(註2)是達到語意網親和性(Semantic Web-friendly)的方式。

歐洲數位圖書館Europeana 重視互通性,並使用SKOS,且Europeana正在開發語意的搜尋界面。

資料運用的深化(?)(Deep dashboards)

為各種不同的用途,圖書館常會再利用(reuse)書目資料。而Linked Data是結構化的資料,它使資料的再利用能很快速。

下一步(The next step)

Linked Data給圖書館機會去進一步處理/運用自有的資料、提供更多資訊供讀者去發掘(for discovery)及分享資源。將圖書館的資料變為Linked Data會增加連回至圖書館的數量(機會)( Making this data available for linking increases the number of pathways back to the library)。
.
另一份關於Linked Data的投影片是Daniel Chudnov 的Better Living through Linking,舉有實例來解釋Linked Data,其中 slide 116(如下)顯示Eximious 這張唱片的書目記錄(Linked Data)有清楚的URI(clean URI):
.

http://lccn.loc.gov/84759993(以LC控制號為基礎構成的URI)

還有slide 119及120顯示書目記錄中資料元素(機讀)標示的情形,提供很好的概觀。

[感想]

正如netConnect 導言Data in Context(資料在背景脈絡中)一文所說:“語意網引人注意的是它具有潛力在表層網路之下,去建立 -- 對使用者及對機器兩者的 -- 相關資料和背景含意的一個基礎結構 (it has the potential to build beneath the surface web a fabulous underlying structure of interrelated data and context meaningful to both users and machines)。但目前我們仍不清楚如何從現在的網路到達那兒[語意網], 所以我們從小處開始,盡我們所能將各處的資料連結起來、一步步做下去。”

圖書館書目資料處理的方式勢將隨網路科技而變,而圖書館的結構化書目資料應可繼續發揮其價值。

.
註1:參見LC新網站:權威資料與控制詞彙(Authorities and Vocabularies)(秋聲Blog)
註2:可參考這期Library Journal netConnect 另一篇文章:Microformats: Context Inline :Karen Coombs sees microformats as a quick and easy way to embed contextual information into your library's site.

2009/06/14

圖書館的鏈接資料(linked data):基礎篇(上)

圖書館的書目資料走上語意網—這已不是夢。

在資訊與知識傳播及服務方面,圖書館在將來需與其他相關者(如Google、出版者)扮演重要的角色。而圖書館如何將其大量的書目、內容...等很有價值的資料(數據)釋放到網路上,讓它們充分被利用(如混搭mashup),甚至“活化”,讓其價值發揮到最大,這是圖書館得以立足於未來網路世界的重要基礎。

Web 2.0 已朝向 Web 3.0 進化,是Web of Data ( “資料/數據”為主的網路),也是語意網的時代。其中重要觀念與作法包括:網路上的相關資料(data) 必需充分且適當加以“連結”,使資料變為所謂“鏈接資料”(Linked Data,或稱為“關聯數據”)(例子),如此才利於電腦處理、利於搜尋與查檢。而圖書館的書目資料的處理也必需有新的作法。

Library Journal 2009年4月15日出版的專刊 netConnect,其中幾篇文章是從圖書館的角度來講述鏈接資料(Linked Data),算是入門的介紹,現摘譯Coyle寫的這篇如下:

Making Connections (建立連結) by Karen Coyle

從文檔到數據From documents to data

在網頁上的文字資料,其中有些字會有超連結;若稱這些字為資料元素(data element),則資料元素與相關資料元素之間會有一種有意義的連結,例如我們說資料元素A與資料元素B有一種關係X,[在語意網]這種“關係”(relationship)不僅讓人可以領會且讓機器也可以處理。

一些文句對人來說很容易懂,但對機器則不然。例如一個句子:“Herman Melville是《白鯨記》的作者”,人們懂得這句子的意思是因為人們透過背景資料(上下文資料)知道Herman Melville是個人、《白鯨記》是部作品、“…的作者”(author of)是指Herman Melville寫了這本書。如果要讓電腦程式處理這些資料,就需提供它能了解的背景資料(上下文資料)。因此,讓機器來了解語意,需有下面三個要素:識別標示(identities)、關係(relationships)、及規則(rules)。

識別標示(Identities)

對鏈接資料(Linked Data)來說,[文詞的]概念及關係的識別是很重要的。例如:我們談話時提到地名“Georgia”(喬治亞),我們會很清楚指的是(美國)喬治亞州或東歐的喬治亞共合國。但在語意網環境下,需要對喬治亞州及喬治亞共合國作不同的標示,因為電腦很難了解上下文,另外,我們可能在別的情況(別的上下文)也會用到這些詞彙。我們使用URI(統一資源標示符)作為識別標示,開頭以 http://.../ 來表示。

聚集許多識別詞彙(identified terms)便成為“詞彙集”(vocabularies),或在語意網中稱為“本體”(ontologies)。這些詞彙各有其URI。多半情況,詞彙具有含義,其URI可指向某一描述此詞彙的文件,或提供機器處理所需的其他資訊。有個語意網的標準叫“簡單知識組織系統”(Simple Knowledge Organization System,SKOS),它將詞彙的結構界定為索引典的形式(有上、下位詞…)。這些詞彙可能在相關的註冊單位登記了。電腦程式能利用這些詞彙(連同詞彙關係,機讀的),也能利用應用程式界面中詞彙的定義(人可讀的)。

關係(Relationships)

舉例說明:
John Smith與Betty Jones 有一種關係X ;另外George Johnson與Betty Jones 也有一種關係X
機器並不懂“關係X”是什麼意思,但如果你問:誰與Betty Jones有一種“關係X”時,機器運算後能回答:John Smith及George Johnson。

規則(Rules)

在語意網,規則因涉及推理(inference),所以是很重要的。簡單的數學推理:
如果A=B 且B=C,則 A=C

語意網的運作就要靠許多規則(機讀的)。語意網中規則的基礎檢索標準是SPARQL(查詢語言),供語意網資料查詢之用。

再舉個例子:
-------------------------------------------------------------------------
詞彙(Term): 叢書(Series)
標示符(Identifier): http://www.example.com/publishingTerms/3279
定義(Definition): 一群文件(資料),先後出版(A group of documents published in an order over time)

詞彙(Term): 圖書(Book)
標示符(Identifier): http://www.example.com/publishingTerms/101
定義(Definition): 一份獨立出版的文件(資料)(An ind ependently published document)

關係(Relationship): 屬於XXX的成員(isMemberOf)
標示符(Identifier): http://www.example.com/publishingTerms/73
定義(Definition): 屬於(某)一套(Belonging to a set)

規則(Rules):
圖書可以是屬於叢書的成員(Book can be “isMemberOf” Series)
叢書不能是圖書的成員(Series cannot be “isMembe rOf” Book)
叢書可定義為所有的總合(Series can be defined as the sum of all)
圖書具有“屬於XXX的成員”這種關係(Books with relationship isMemberOf)

為提供更多圖書或叢書的資訊,你可擴展規則:
叢書可以按叢書號排序(Series can be ordered by: series number)
叢書可以按出版日期排序(Series can be ordered by: publication date)
---------------------------------------------------------------------------
藉著詞彙、規則及關係,在網路上任何地方,叢書裡的圖書才能被識別(can be identified)及按序顯示。

Linked Data很重要的特色是“連結”(links)能遍及整個網路。例如:一本書連到一套叢書,此連結只需定義一次,即可用於這本書在網路上的所有情況。連結(links)可以很容易變為“鏈”(chains),它可以從一本書轉移到一套叢書、然後再轉移到叢書中的其他圖書 (Links easily become chains that can move from a single book to a series and then to all of the other books in that series) 。

Dbpedia資料庫便是根據維基百科所建立的Linked Data資料集(data set)。

與圖書館資料相連結 Linking it all to libraries

語意網面臨的問題除了網路上的文檔資料(documents)普遍未含標記(markup,有此才能作連結),且人物名稱沒有識別標示(無權威控制)。所以語意網需要本體(ontologies)(也就是控制詞彙):

本體可改進檢準率[precision],還可將網頁上的資訊與相關的知識結構及推論規則相連繫起來(to relate the information on a page to the associated knowledge structures and inference rules)。

圖書館界已有很好的的詮釋資料 -- 識別標示(權威資料)及本體(控制辭彙),我們需要做的是:將這些資料轉變為語意(網)結構、讓資料(data)可供連結。

如果圖書館的權威資料(人名、劃一書名、主題…)成為Linked Data後會有什麼好處呢?例如,維基百科中的人名若連結到圖書館的人名權威檔,可建立網路上人名識別基本檔。正確的連結還需用到以規則為基礎和支持推理的運算法,有時也需人為判斷。

圖書館界其他許多詞彙(如:地區/語言代碼、資料類型代碼…),不論其他領域是否用到這些代碼。Linked Data可以用在“轉接”[switching]系統上:將不同領域的同義詞相連結,如此不同領域可分享詞彙、互相連結資料,也就是擴大原本自己的資源。

圖書館很重要的本體便是編目語言(the language of cataloging),其體現於MARC中。如將這些書目資料元素重整為語意網Linked Data的形式,則網路應用程式與書目資料可相容、許多圖書館領域外的網路開發者將獲益。

將圖書館的詮釋資料轉為Linked Data ,這發展並不遙遠,美國國會圖書館(LC)除已公布國會標題表(LCSH)的Linked Data外(註),也將陸續提供其他與書目記錄相關的控制詞彙或權威資料(Linked Data形式的)。

在NSDL詮釋資料註冊中心已登錄RDA(新編目規則)使用的資料元素,未來也將包括RDA中界定的詞彙及FRBR的資料元素及關係(relationships)項目。

這些具Linked Data形式的資料元素及詞彙放在網路上,提供了開發相關應用程式(它將運用這些詞彙)的一個基礎。

圖書館的Linked Data的推上網路,其意味著這些資料可在網路上普及和被任何網站利用,還有其他許多可能性,如:將圖書館目錄上的資料與網上其他資源相連結(運用演算法及搜尋方式將目錄中的作者條目與網上作者的網頁相連結)。

如維基百科及LibraryThing 等非圖書館單位已在使用圖書館的書目資料,未來被非圖書館單位使用的情形現還難以想像。OCLC WorldCat的識別檔(WorldCat Identities) 讓我們了解到:一旦圖書館資料從目錄中釋放出來,其豐富性可見。開放圖書館資料到網路上、以可連結的形態,這將使其豐富性在全球的範圍上得以拓展。
(原文末有 Link List -- 列出文章中提到的相關連結)

註:參見LC新網站:權威資料與控制詞彙(Authorities and Vocabularies) (秋聲Blog)

[相關資料]
关联数据四原则关联数据FAQ (數圖研究笔記)
編目朝向語意網邁進(一) (秋聲Blog)

2009/06/06

[生活雜記]尋訪記憶中的城樓

昨天到北市青少年育樂中心替孩子報名夏令營,有機會探訪附近的“城樓”及自己唸過書的小學。

雨後、正午、日正當中,我站在林森南路與仁愛路口“城樓”前面,似曾相識的場景,但覺茫然。如何講述記憶中的“城樓”呢?或許下面左圖(還有ANT's圖雪泥's圖)能表達部分意象:


左圖: http://catalog.digitalarchives.tw/?URN=3140319

以前是走路上學,從杭州北路到東門國小,不短的路程(如文末的地圖)。記得雨天時穿著長雨衣,走經城樓,雨衣濕答答的下襬常會黏在小腿肚上,這時會扯扯衣襬讓它分開…

上、下學都會經過城樓,但很少走進去過,因為它看起來有些怪。後來不知經過n年,發現它完全變了個樣,如今它叫“東和禪寺的鐘樓”,樓壁刷白得有些不自然、黑瓦應是重鋪的,孤零零站在現代建築森林中,顯得微小和些許神秘。(上面右圖)

試著找個位置、試著從兒時的視角、試著回想 … 但自己似乎沒有辦法,是記憶太模糊、還是滄海桑田?

對個體生命而言,許多"瞬間"已不經意成為生命的烙印、永恆的記憶與懷想;對整體人群而言,小小的鐘樓是個象徵,它背負了許多人的對歷史的追念。

回望那十字路口的學童,他們正朝我而來,親愛的孩子啊!

[其他資料上的記載]:

“然在光復後為軍隊借住,違章建築逐漸增加,終使景觀大遭破壞。唯寺內鐘樓,在1997年被台北市政府列為市定古蹟。(《台灣佛教辭典》選刊東和寺).

“戰後,觀音禪寺改名為東和禪寺,由於受軍隊及民眾長期佔住遭到破壞毀損,也被違章建築所包圍…([台北]東和禪寺鐘樓/水瓶子)

“一九三0年在大殿之前建造高聳的鐘樓,目前仍存在,但大殿及其他古老的建築因曾被軍隊及民眾佔住長期遭到破壞,近年被拆掉了,至為可惜。(東和禪寺鐘樓/台北市政府文化局)
.
“民國八十一年,為了興建青少年育樂中心,台北市教育局計畫拆除東和禪寺和鐘樓,古蹟保存人士群起抗議。經過折衝,教育局只同意保留鐘樓,次年,市政府拆除東和禪寺大殿和佔用土地的違章住宅。(台北旅遊網)
.
參考資料:
東和禪寺鐘樓(維基百科)
日式和風建築--東和禪寺鐘樓(堅仔的Blog)
.


在較大的地圖上查看Debra 國小上學路線

rev. 20090606 23:20

2009/05/29

RDA再認識(下)

[基礎參考資料]
RDA(編目規則.草案) 網址http://www.rdaonline.org/
JSC(註1)新網址 http://www.rda-jsc.org/
RDA—资源描述和检索:21世纪的编目标准 (大陸顧犇譯RDA簡介單張)(PDF)
-------------------------------------------------------------------------------
接續上篇,關於Diane Hillman的投影片:Getting Real With RDA.

Slide 39-- 我們現在能做什麼?
要看得更遠,我們需要做:
讓我們[圖書館界]的data[在網路上]能被取得、讓其他人能利用、
確定我們在網路上使用的資料結構及詞彙[集]、
讓我們的data更像data(“data-like”)、我們的系統更“雲端”(“cloud-like”)

Slide 41 鏈接資料(linked data)的圖示,其中包括圖書館的資料(library data)

Slide 42 圖書館資料成為linked open data 時,我們對這種資料能做些什麼?

Slide 43 有哪些挑戰?
在JSC(或以後接續的組織)的合作之下,做長程的維護計畫,我們需要一個輕型及更容參與的流程,變革不需要經年累月才能達到、
RDA繼續朝向更語意網的方向發展(例如:更少依賴複寫transcription[書上所載的資料])、
開發相關工具(Tool development)(各層級的工具,包括自動化系統廠商)

Slide 44 RDA的轉移作業要花多少時間?
壞消息是:這可能是個很繁雜的過程,比我們所希望的持續更長的時間、
OCLC的角色還是未定—現在他們正忙著鞏固圖書館的[書目]資料及推展WorldCat成為圖書館自動化系統、
好消息是:圖書館自動化系統廠商已開始覺醒了

Slide 45 RDA的測試期、測試些什麼?(註2)
與現在編目方式相比,測試以便確定RDA是否具備充分的優點以達到JSC當初擬定的目標(註3)、
根據測試結果的分析及考量實行RDA的成本,三所美國國家圖書館將決定是否實行RDA、
若出現否定的建議,這將意味什麼?現還不清楚

Slide 46 測試的方式

Slide 47 你需要做些什麼準備?
觀看(讀)、學習、提問:注意測試情形、試用RDA的工具(RDA Tools)、實際建立一些書目記錄,並針對非傳統資料作測試、學習更多網路技術、到NSDL註冊中心的Registry Sandbox(練習用沙盒、即練習用編輯頁面,http://sandbox.metadataregistry.org/)去做練習
促使你的同事及你的(管理)上司來參與

[其他引介及感想]

RDA可說有兩大部分,一部分是編目規範的條文內容,這在RDA官方網站 (JSC RDA)說明了RDA的內容及政策、行動等;另一部分是RDA中資料元素的形式化表述(formal representations of the RDA elements),這部分Diane Hillmann提供了很多相關知識、訊息及看法。

1.在JSC RDA網站,有對RDA相當充分的介紹(包括其背景、範圍及原則…常見問題、現在的行動進度),其中常見問題(FAQ)8 提到RDA和MARC21的關係(註4) ,也可見大陸顧犇翻譯RDA簡介單張中的敘述,或我回覆網友的一段文字(註5)。

2. RDA的推行是項多方合作的工作,見顧犇譯文中“合作的成果”這段文字 (註6)或2009年3月RDA會議記錄摘要中”Outreach”(擴展工作)這段文字(註7)。

3. 關於新編目程序(邏輯)及測試計畫:過去編目多以手頭上拿到的實際書籍來編,即針對“媒體展現”(manifestation)來編,而新的規則RDA是要先弄清楚作品家族,在編目實作上會增加多少負擔?或許要從上游的出版界的書目開始著手/梳理才行?而初期測試參與者很少、加上目前業界對FRBR的應用多止於manifestation 的程度,將來使用RDA網路版在大規模性的合作編目環境下(如OCLC合作編目環境)將會產生哪些問題呢?相信這些問題會被分析及評估,或許從舊到新的大轉移將是個不斷修正的歷程?

而像我們這種身處“邊緣”者要如何準備變動的來臨?我想應從熟悉RDA的基礎觀念—FRBR開始。(註8)

註1:JSA全稱為Joint Steering Committee for Development of RDA(RDA發展聯合指導委員會),是研訂RDA的團體。

註2:參見LC對RDA測試的說明:Testing Resource Description and Access (RDA)

註3:關於利用RDA創建書目資料這方面的目標(Functionality of Records Produced Using RDA – Objectives)是:Responsiveness to user needs、Cost efficiency、Flexibility、及Continuity等,見http://www.rda-jsc.org/docs/5rda-objectivesrev2.pdf

註4:RDA網站中RDA常見問題(FAQ)8

8.1 Will RDA include instructions for MARC coding along with the cataloguing instructions?
AACR2 and MARC 21 are two different standards designed for two different purposes. AACR2 is largely a content and display standard while MARC 21 is largely an encoding standard. RDA is being developed only as a content standard rather than as an encoding standard. It is important that the RDA standard maintain this separation. RDA will contain guidelines for choosing and recording data to include in bibliographic and authority records. MARC 21 is one possible schema for encoding records created using RDA, but it will also be possible to encode records created using RDA in other schemas, such as MODS or Dublin Core.

8.2 How will RDA affect the way that records are coded in MARC 21?
The RDA/MARC Working Group has developed a number of proposals for changes to the MARC 21 formats to accommodate the encoding of RDA data. See the listing of proposals and discussion papers at http://www.rda-jsc.org/rdamarcwg.html. The JSC expects that most RDA data elements can be incorporated into the existing MARC 21 structure using current MARC 21 guidelines for coding and order of data elements. Thus, in most cases, RDA will not necessitate users of MARC 21 to make changes to the way their MARC data displays. Draft Appendix D of RDA contains a mapping from MARC 21 Bibliographic to RDA, and Appendix E contains a mapping from MARC 21 Authorities to RDA.

註5:大陸顧犇譯RDA簡介單張“RDA—资源描述和检索:21世纪的编目标准” (PDF),其中“使用RDA的好处”一段提到:
RDA是一個為數字世界設計的新的資源描述和檢索的標準
■RDA側重于需要描述資源的資訊,而不是...要說明如何顯示該資訊。
■用戶將可以將RDA內容與許多編碼方案(例如MODS(元資料物件描述標準)、MARC 21或都柏林核心元資料)一起使用。RDA具有適應性和靈活性,具有被其他資訊行業和圖書館使用的潛在可能性。

另,秋聲Blog的訪客留言區 2009/5/25
RDA與MARC(或MODS, DC…等)是不同目的及層次的東西, RDA被稱為是”(書目)內容規範”, 而MARC, MODS, DC…屬編碼格式( formats for encoding). 因此編目時可依循編目規則(RDA,AACR…)來創建書目資料(記錄), 但可選擇使用你想要的機讀格式(MARC, MODS, DC…)來輸入資料供機器處理。因FRBR/RDA中的一些資料元素在原MARC中無此欄位,因此MARC21現為配合RDA的實行正在作修訂.也可參考http://www.collectionscanada.gc.ca/jsc/rdafaq.html(FAQ 8的說明)

註6:顧犇譯RDA簡介單張“RDA—资源描述和检索:21世纪的编目标准” (PDF),其中“合作的成果”一段提到:
RDA的工作涉及了圖書館界內外的徵求意見工作。除了FRBR和FRAD工作組以外,聯合指導委員會(JSC)還與如下組織共同工作:
■都柏林核心元資料和其他語義網領域:比較各自所採用的概念模型和標準。(根據這些工作組的會議所產生的建議,一致化的工作正在進行中。)
■美國國會圖書館網路發展辦公室和MARC標準辦公室:保證RDA和MARC 21之間的相容性。(在英國國家圖書館、加拿大圖書館和檔案館、美國國會圖書館的發起下,一個協調RDA和MARC 21的工作組已經成立。)
■國際圖聯國際編目規則專家會議(IME ICC):負責修訂和更新“巴黎原則”(AACR2以此為基礎),使其成為21世紀的原則。
■出版界:發展出一套基於其ONIX標準的載體術語,用於出版界和圖書館界。

註7:
Outreach
Members of the CoP, Co-Publishers, and JSC have always emphasized the importance of working with other groups in pursuit of compatibility of RDA with other metadata communities. To that end:
●An RDA/MARC Working Group was established in January 2008 to coordinate changes to the MARC format as a result of RDA. Proposals have been submitted to the appropriate groups and have been accepted by them. The result is that MARC 21 will be able to accommodate the additional RDA fields and elements.
●The JSC has been working with the Dublin Core Metadata Initiative (DCMI) on two projects relating to RDA. The first is a mapping of RDA elements to Dublin Core elements. The second is the development of registered vocabularies for the RDA element set and value lists.
●Members of the JSC continue to work in the international arena with the ISBD Review Group, the FRANAR Working Group, and those working on the creation of the new IFLA Statement of International Cataloging Principles, ensuring open communication and coordination.

註8:JSC RDA網站:RDA常見問題9“採用RDA”/Adopting RDA)提到( #9.1):
There are a couple of things that you can do in order to prepare for RDA. The first is to familiarize yourself with the concepts and vocabulary that is found in FRBR. The second is to keep up-to-date with RDA developments by reviewing drafts as they become available and monitoring comments about RDA on various listservs.

[相關資料]
據各方意見,RDA內容作了修改,參見ALA 代表J. Attig的部落格:http://www.personal.psu.edu/jxa16/blogs/resource_description_and_access_ala_rep_notes/

RDA 再認識(上)

2009/05/24

RDA 再認識(上)

最近注意到兩份投影片:一是Diane Hillmann 再次闡釋RDA(Resource Description and Access,資源描述與檢索),另一份是Denton及Schneider 講關於FRBR的發展(註1),都值一讀。先看RDA這份投影片的要意。

Diane I. Hillmann於20090429 在紐澤西圖書館協會(NJLA)的演講,題目是Getting Real With RDA(暫譯:真實了解RDA)(48 slides)。

Slide 4: RDA in the context of change中提到相關規範的演變:
書目世界的觀念模型(Bibliographic Model)從沒有(none)到FRBR及FRBRoo、
詮釋資料內容(Metadata Content)從AACR2到RDA、
Metadata Structure(詮釋資料結構)從MARC21 Bibliographic到RDVocab[RDA詞彙集]、
人名權威檔(Name Authority)從MARC21 Authority到FRAD、
主題權威檔(Subject Authority)從MARC21 Authority到FRASAR, SKOS、
編碼(Encoding)從MARC21到XML及 XML/RDF

Slide 8: Important Differences提到RDA[與過去]重要的不同處:
RDA是以FRBR為基礎的方法,去組織(結構化)書目資料、
RDA包含更適宜機器處理的鏈接項目(如URIs)、
更著重關係及角色(relationships and roles)、
減少編目員建立的附註及文字串、
減少複寫資料(書)上的文字[如:作者敘述]

Slide 10: RDA as Toolkit提到RDA是個工具集(toolkit):
RDA除了線上版的編目規則外,還包括一些工具(tools)、
免費工具應有:XML Schemas to use with RDA data、RSS feeds to keep track of vocabulary changes…

Slide 11: The Rest of the Story 其他一些事情:
正對MARC21進行修訂以配合FRBR及RDA、
eXtensible Catalog Project 此計畫猛進中、
不幸的是不知道OCLC正計畫些什麼、
RDA詞彙的其他語言版已著手進行了

Slide 20-21: RDA WEMI Relationships 顯示FRBR第一組實體(註2)[即作品、表現形、媒體展現及單件]間的WEMI(Works, expressions, manifestations, items)關係情況:已界定及登錄於NSDL

從Slide 25-38 Walking through a concrete example…(DCMI/RDA cataloger scenarios)
以實例說明如何根據RDA來編目[不同於已往的一套邏輯!] :

(Slide 26)編目員Jane要編一本拉脫維亞語(Latvian)翻譯的書(原著為英文)。首先她查出原作者、書名…等資料:
Author(作者): Kurt Vonnegut
Title of the work(作品名稱): Bluebeard: a novel
Form of work(作品類型): Novel(小說)
Original language of the work(原作品語文): English(英文)
----------------------------------------------------------
(Slide 27)以XML及鏈接資料來表述此作品(Work) -- RDA/XML表述、及RDA/XML+URI(連結links)方式來表述




(Slide 28)該作品有:一表現形(expression) 及一媒體展現(manifestation):
表現形
Language of expression(表現形之語文): English(英語)
Content type(內容類別): Text(文字)
媒體展現
Statement designating edition(版次描述): 1st trade edition
Place of publication(出版地): New York
Publisher’s name(出版者): Delacorte Press
Date of publication(出版年): 1987
Extent of text(文字長度): 300 pages(300頁)
Identifier for the manifestation(媒體展現識別號): [ISBN]0385295901
----------------------------------------------------------------------------------
(Slide 29-30)以上expression和manifestation以RDA/XML、及RDA/XML+URI(連結links) 方式來表述

(Slide 32)Jane 對於拉脫維亞語的譯本,她需建一個表現形及一個媒體展現,並與原作實體相連結;另譯者需建人名權威記錄

(Slide 33-34) 拉脫維亞語譯本的expression和manifestation,以RDA/XML、及RDA/XML+URI(連結links) 方式來表述

(Slide 35-38) 勾畫出FRBR關係圖(作品、作者/譯者、主題之間),其中Slide 38:

圖:Getting Real With RDA(Diane Hillmann) slide 38


註1:參見What We Talk About When We Talk About FRBR (The FRBR Blog)
註2:參見FRBR是什麼?(中譯) (上)、() (秋聲Blog)

[參考資料]On the Road at NJLA and the Five Colleges (Matadata Matters)

2009/05/13

LC新網站:權威資料與控制詞彙(Authorities and Vocabularies)

●[簡介]


美國國會圖書館(Library of Congress, LC)在眾人引頸期盼下終於在2009.5.1公佈一個官方新網站 – Authorities and Vocabularies (權威資料與控制詞彙) ( http://id.loc.gov/authorities/)(註1),它提供人及機器來取用LC的權威資料(authority data),採用鏈接資料(linked data)的方法(即透過統一資源標誌符URI來連結相關資料)(註2)。

此網站目前提供了34萬多筆的控制詞彙記錄供免費使用,首先提供的是國會標題表(Library of Congress Subject Heading, LCSH)(註3),今後會陸續增加更多控制詞彙集(如:圖像資料索引典TGM、MARC地區代碼…等)。

將LCSH的標題詞彙變為linked data,即是每個標題詞都有URI,如:標題詞 -- "Semantic Web"(語意網) 的URI是 http://id.loc.gov/authorities/sh2002000569#concept 。每個詞彙(term)都有其詳細資料頁面及視覺關係圖,如下面圖例:



..


詞彙的詳細資料可供下載,在頁面最下方有三種格式: (Alternate Formats) RDF/XML, N-Triples, JSON)(註4),另參見“技術中心”(Technical Center)頁面的說明。

●[感想]

誠如遠洋老師(遠洋過客)轉來的信息中提到:LCSH in SKOS now "officially" available. The primary goal of this service is to enable machines to programmatically access data at the Library of Congress but the web interface also provides simple user access. We view this service as a step toward exposing and interconnecting vocabulary and thesaurus data via URLs. LC的權威資料與控制詞彙一旦成為linked data後,便可供機器處理(透過程式),圖書館加值資料才能真正融入Web環境中。也如雨僧所說:“它[指LC這新網站]的第一服務物件是機器而不是人,機器是主體,人是附帶的,所以這個服務的啟動,其意義是深遠的…”。

在由document web邁向data web(或稱web of data,語意網的)時(註5),諸如圖書館的data(如:LCSH、RDA…等控制詞彙) 的表述都需經過適當的轉變,讓機器可處理及可再利用,同時與廣大網路上的概念或詞彙相連結、並開放供眾利用 – 這便是開放性鏈接資料 (linked open data, LOD),應是網路及資訊檢索未來的道路。
.
註1:在去年(2008)5-6月(?)時LC的職員Ed Summers曾公佈一網站lcsh.org,將LCSH以鏈接資料的方式表述,算是現在正式官網的前身,後來在12月時LC要他撤除。參見Summers的UNCOOL URIS (http://lcsh.info/comments1.html),及Keven的SKOS版的LCSH 有相當清楚的解說。

註2:Linked data,有譯為鍵連資料(維基)、關連數據(大陸Keven),這裡暫參考國立編譯館的學術名詞資訊網中linked data structure (鏈接資料結構),將linked data譯為“鏈接資料”。
“鍵連資料是正在快速發展的語義網的一系列的活動,它描述了一套在全球資訊網上發佈、分享、及連結資料的方法。主要以可參照的URI作為最基本的要素、以RDF作為描述連結的語言。”(維基)

另可參閱:
关联的数据 (Linked Data)--1. Linked Open Data (LOD)(遠洋過客)
关联的数据 (Linked Data)--2. 关联的图书馆数据Linked Library Data(遠洋過客)
语义互操作与关联数据 (ppt) (Keven)

註3:國會標題表(LCSH)現在有紙本(第31版,2008-2009);也有web版(Classification Web,和國會分類法一併販售)。或直接查閱Library of Congress Authorities(LC的權威檔),免費線上查詢、且有MARC記錄。

註4:
N-triples:N-Triples is a line-based, plain text serialisation format for RDF (Resource Description Framework) graphs(維基解釋);或參考“RDF/XML 並不是 RDF 模型的唯一表示。W3C 開發了 N-Triples,這是一種特別適合於測試套件的 RDF 表示格式…”(Thinking XML: N-Triples 簡介用於 RDF 的一種更簡單的序列化)。

Json(Javascript Object Notation)是一種輕量級的資料交換語言,以文字為基礎,且易於讓人閱讀。儘管JSON是在Javascript的一個子集,但JSON是獨立於語言的文字格式,並且採用了類似於C語言家族的一些習慣。(維基解釋)

註5:语义互操作与关联数据 (ppt) (Keven/劉煒) slide 26

[其他參考資料]
Linked Data - Connect Distributed Data across the Web
The Web of Data: Creating Machine-Accessible Information (ReadWriteWeb 20090417)

2009/05/09

2009年母親節

孩子從學校帶回來一張小卡片,說是(慈濟)大愛媽媽發的。他的書桌上有個小層(書)架,他便把紙片黏在正中間的位置--抬頭可見的位置,卡片上寫著:


...... 媽媽 ......

媽媽,您是一棵大樹
我是樹上的小毛蟲
我每天吃樹上的葉子,媽媽沒有怨言

媽媽,您這一棵大樹
還是不停的長出新葉子
使我成長,使我茁壯

媽媽,我們感恩您!
..................................................................................

在Flickr相片分享網站上看到一張有趣的相片 -- 山胡椒(?)葉上金鳳蝶的毛毛蟲(Swallowtail caterpillar),想必樹媽媽的葉子餵養牠肥肥壯壯了:

圖By poppy2323 (http://www.flickr.com/photos/66132721@N00/2763084259/in/set-72157608339939097/ )

(眼睛狀斑點有偽裝作用,有些誇張、好玩)

希望孩子早日成為蝴蝶!也祝辛苦的媽媽們節日愉快!

2009/05/05

美國圖書館學會對Google和解案的態度

美國圖書館學會(ALA)的資訊技術政策辦公室(OITP)2009.5.4發佈了一則消息:三個圖書館學會(ALA、ACRL、ARL)對Google和解案(Google Book Search settlement) (註1),已向法院提出評論(評論title:LIBRARY ASSOCIATION COMMENTS ON THE PROPOSED SETTLEMENT,全文22頁PDF檔) (註2)。同時Library Journal 也作了報導 -- Warning of Abuse of Monopoly, Library Groups Ask Court To Closely Monitor Google Settlement (警告獨佔的濫用:圖書館團體要求法院嚴密監視Google和解案),可清楚看出美國圖書館學會明顯的立場及作為。以下是LJ文章的重點:

美國圖書館學會(ALA)、大學及研究圖書館學會(ACRL),和研究圖書館學會(ARL)對Google與出版社等團體的和解案,向美國法院提出評論/意見,要求法院在解釋及實行此和解案上強力行使其裁判權 -- 這可能要花上數年時間,以確保最可能的公眾利益。

三個圖書館學會表示他們並不反對此和解案,但警告:高昂的收費及不透明的控制將危害圖書館的基本價值 -- 即公平取用資訊、讀者隱私,和知識自由(intellectual freedom)。Google將掃描二千萬本書,作者、出版者及Google (而不是一般大眾及圖書館社群) 有無比的權力掌控這些資料的內容及其註冊登記等事務。Google及「圖書版權登記機構」(Book Rights Registry)能以其利潤觀點來制定收費標準,一旦價格調高勢將損及大眾取用權益;且市場上並無可相比較(競爭)的產品或服務。完全由Google及登記機構決定圖書館的訂閱費,圖書館並沒有地位/角色(role)。

其他問題還包括:

各圖書館情況不同,很多館無足夠終端設備去取得這種服務以滿足讀者需求。

Google並未表明:掌握多少使用者在資料檢索及列印的個人隱私資料,Google必須對個人隱私資料有明確的政策。

書中插圖的創作有其著作權,他可將插圖抽離作品而使得作品不完整…等情形。

Google可能會遭遇到外界壓力(政治…等)而排除掉(掃描)一些爭議性書籍。


三個圖書館協會表示他們已明確指出必然會發生的問題,需要法院介入仲裁。此和解案牽涉廣大,它的全面性影響現在仍不可知,它可能只衝擊到一些學者(在研究工具的使用方面),但也可能重構出版業及對圖書館性質有重大的改變。對於和解案成立後所提供的(數位資料)服務,法院應採行必要的監督以擴展最大的公眾利益。

[感想]
在這種涉及到資訊公平取得及資訊服務爭議時,圖書館不能缺席、不能不表態(發聲)、不能沒有立場。

註1:Google與美國作家協會及出版協會的和解案現尚未定案、尚待法院裁定,案子的來龍去脈可參閱“圖書館觀點”Ted詳細的介紹:各界對Google 與美國作家及出版業達成和解的一些反應 或章忠信的邁向世界圖書館之路?—Google與出版界和解之後

註2:向法院提出評論(file comments)原截止日為2009.5.5,現已延長四個月。
LIBRARY ASSOCIATION COMMENTS ON THE PROPOSED SETTLEMENT文中提到此和解案的問題有:The Settlement Creates An Essential Facility With Concentrated Control, The Settlement Could Limit Access to the ISD, The Settlement Will Heighten Inequalities Among Libraries, The Settlement Does Not Protect User Privacy, The Settlement Could Limit Intellectual Freedom, The Settlement Could Frustrate the Development of Innovative Services,最後一點提出:This Court Can Address The Library Associations' Concerns Through Rigorous Oversight of the Implementation of the Settlement 力促法院確保六點具體的公眾權利。

[相關資料]
Google Book Settlement (ALA OITP專設的網頁)
Google Book Search Settlement: A Set of Links (Library Journal 彙集很多討論文章的清單)
Google與美出版協會和解涉壟斷 美司法部要查(鉅亨網)