2008/10/30

編目朝向語意網邁進(二)

再來看DCMI/RDA及LCSH(SKOS版)具有的意義。

編目規則RDA詞彙的RDF表述

DC-2008有場研習會(Workshop)是Diane Hillmann 講"RDA: Finding Your Place on the Evolutionary Path "(講義PDF),其中要點有 (slide 2):
1. the preliminary registration of RDA Elements, Roles and Value Vocabularies(RDA的元素、角色、及[內容值]詞彙的初步註冊登記)
2. RDF/SKOS representation can support the JSC's three metadata architecture scenarios(RDA的RDF/SKOS的表述能夠支援JSC擬出的三種metadata架構)

●由Hillmann領導的DCMI/RDA工作小組針對RDA的三類詞彙(Elements, Roles, Value Vocabularies)進行分析及界定,並向NSDL Registry登錄這些詞彙。什麼是Elements(元素)?它是指“作品年代”(Date of Work)、“出版年代”(Date of publication)、“數位檔案特性”(Digital File Characteristics)…之類的元素。在每個元素的記錄檔裡詳細記載了該元素的 Label、 Name、URI、Description…等資料,可參見她的講義 slide 6。
若以RDF及SKOS來表述“數位檔案特性”這個元素,將會呈現如下圖1的樣子。 [註]
圖1
.
什麼是Roles(角色)?指作者、演出者、裝釘者…之類的資料。什麼又是value vocabularies([內容值]詞彙)?舉例說:“數位檔案特性”是個element,而記錄該數位檔案文字、聲音或影像的技術規格便是values,如:audio file、MP3…等。(參見RDA草案第3章 3.20(PDF))

●預計於2009年6月公布的RDA成品將包括:編目規則、元素集(elements)、[內容值]詞彙集(value vocabularies),再加上範例及相關工作流程。在此之前,DCMI/RDA工作小組思考的問題尚有:
1. 管理與維護的問題,2. 開始進行RDA Application Profile的工作(associate properties with value vocabularies),3. 其他語文版本的擴充/建置(如:希伯來文、德語…)[slide12-]

●訂定這些RDA詞彙與編目實作及資料庫架構有何關係呢?
1) 為讓編目員了解並能使用RDA及其詞彙,CDMI/RDA工作小組已擬出6個腳本(cataloger scenarios,或稱例子)供編目員參考。
2) 對於資料庫架構方面,參見Gordon Dunsire的投影片“Database/format scenarios”(在Hillmann講義 slide 23 或 Dunsire 的RDA vocabularies and concepts (PPS) slide17 )。
.
標題表以RDF/SKOS表述

參見下圖2的模樣(取自 LCSH, SKOS and Linked Data /Ed Summers et al. PDF slide 21)
圖2
.
同時請參閱國會圖書館標題表(SKOS版)網站:http://lcsh.info/、"LCSH, SKOS and Linked Data" (Ed Summers et al)(PDF) 、及數圖研究笔記的博文"SKOS版的LCSH"。
LCSH的每個標目(subject heading)都有(concept)URI作為唯一識別符(identifier)。URI像個釣魚鉤,用以串連網海中的相關資料。
.
資訊組織語意網的大拼圖
.
圖書館目錄以文字(字串)敘述方式的傳統已相當悠久,然而現今電腦/資訊/網路科技的邏輯思維方式已顛覆了傳統的方式。現在編目的處境就如Hillmann說的 -- “在演進之路上找尋自己的位置”(Finding Your Place on the Evolutionary Path)。時代科技讓我們將過去很多籠統、曖昧不清、糾結纏繞的認知或觀念,重新析明與界定。RDA與LCSH的RDF/SKOS表述可讓這兩塊領域的資料融入Web、讓其他各界(外界)可以利用。

而對編目員言,或許面對的只是修訂過的編目規則、修訂過的MARC格式(?)、依FRBR來編整資料、接觸到的仍是較“人讀”,非複雜“機讀”的界面、知到要如何編目,但不知到為何要這樣編目;反正MARC資料可轉為RDF、SKOS…等格式的東東!?豈知背後是一場變革!

我想RDA及LCSH的進展只是資訊組織(知識組織)語意網化這個大拼圖中的幾片拼圖片吧,走向語意網之路仍有許多事情待我們努力,也希望國內能早點起步。
.
[註] 或見Dunsire的投影片(PPS) slide 15(需用全螢幕閱覽、有動態逐項說明)。
.
[相關資料]
DC元数据年度进展(2007)刘炜 (PDF) [有DC新加坡框架中譯圖]
.
★後記:剛得知Diane Hillmann 的另一份投影片 Facing Forward: The Challenges Facing Cataloging and Catalogers ,對編目人員極有參考價值。
rev on 20081030 15:09

2008/10/24

編目朝向語意網邁進(一)

最近注意到有兩個(圖書館)標題表以SKOS[註1]來表述的例子 -- 一個是美國國會圖書館標題表(LCSH)以SKOS語法來表述、另一個是大陸的《中国分类主题词表》(Chinese Classified Thesaurus,CCT),由遠洋過客所作SKOS表述的實驗與探討[註2]。
.
而新的編目規則“資源描述與檢索”(RDA)製訂之同時,有DCMI/RDA工作小組進行RDA詞彙集計畫(RDA Vocabulary Project) [註3]。當然書目世界關鍵的觀念模型FRBR,早已有其重要地位。這種種都顯示了編目(或稱資訊組織)正漸漸向語意網邁進。

傳統的編目工作常分為“記述編目”(descriptive cataloging)與“主題編目”(subject cataloging)這兩大方面,在走向語意網之際,這兩方面有何變化呢?

語意網:編目人員觀點

首先得了解一下“語意網”(Semantic Web),這對我而言是蠻技術及複雜的,至今仍迷茫,但還是將自己的一些理解及瀏覽過的資訊寫下來,或許能獲高人指點。

提到語意網不得不也提到知識本體(ontology)、及與本體相關的語法:OWLSKOS;還有底層、技術性的XMLRDF。這許多縮寫名詞可先參考下面圖1,有個概觀,以下說明其中一些名詞。

在陳昭珍老師的“知識本體架構與知識組織發展新趨勢”這篇文章對許多詞彙(語意網、本體、SKOS…)有相當清楚的說明,以下引號中的文字摘自該文。

現在的網路(Web)與下一代的語意網差別在那裡?可參考這張對照圖(Figure 2: Resources and links can have types in the Semantic Web)。“而如何做到語意網呢?基本上就是要讓電腦知道文件之間的關係,也就是要增加文件的語意。增加語意的方法有兩個:
1. 使用標準之metadata 格式建立外在的描述資料,如採用Dublin Core 來描述資料內容,但這種方法比較沒有彈性,能描述的內容數量有限;
2. 另一種方法就是採用知識本體架構來專指資料的意義,這是目前語意網最主要的核心技術。”

知識本體(Ontology)簡單說是用來表示資訊的結構、規範概念及顯示概念間的關係。現今已建立了很多類型的知識本體架構,就其結構化程度可分成:“詞表/用詞清單/術語工具(如:權威檔…等)、分類與歸類/類目(如:分類表、標題表)、概念關係表(如:索引典)”,參見這張圖(左邊圖)。

如何建立知識本體架構呢?下面是較重要的步驟:
“決定知識本體的領域和範圍、考慮採用現成的知識本體、
匯集重要的詞彙(Enumerate important terms in the ontology)、
定義知識類別及層級(Define the classes and the class hierarchy)、
定義類別屬性(Define the properties of classes – slots)、
定義屬性之面向(Define the facets of the slots)、
建議知識節點(Create instances)

…在Ontology 領域中,尚需以標準的語法來表達該知識本體架構。目前用來表達知識本體架構的標準主要有表達Topic Maps 的XTM 語法、及W3C 所推出的Ontology 語法OWL 及SKOS…
簡易知識組織系統(Simple Knowledge Organization System,簡稱SKOS)…主要目的乃在提供一個簡單有用之架構,以電腦可瞭解方式來表達知識組織系統,是一個用來支援知識組織系統使用的規範和標準,其知識組織系統包括索引典、分類表、主題標目…和在語意網架構內應用之其他各種控制詞彙方式。
SKOS 也是以資源描述架構(Resource Description Framework,簡稱RDF)和XML為基礎的語法…
SKOS 為一簡單語法,但因SKOS 是架於XML 和RDF 語法之上發展,提供可讀性和可擴充性,即機器只要能解譯XML 或RDF 語法即可讀取SKOS 格式;而且只要是基於RDF 和XML 語法上發展的語言,都可與SKOS 合併使用,如圖5[見下圖1] DC、FOAF 等語彙,都可與SKOS 混合使用,使SKOS 具有強大擴充性。”



圖1(取自http://dc2005.uc3m.es/program/tutorials/tutorial4_eng.ppt slide76)

“XML:主要乃在提供標示文件的表層語法(surface syntax),它不會為這些文件的意義加上任何語意說明。

RDF:是一種用以描述物件(“資源”)與物件彼此間之關係的資料模型。它為這種資料模型提供了簡單的語意,而這些資料模型可利用XML 語法來表示。

RDF Schema:是用來描述RDF 資源之屬性與類別的詞彙。為這些屬性與類別的一般化階層架構(generalization-hierarchies)提供語意。”
--------------------------------------------------------------------------------

[註1] SKOS(Simple Knowledge Organization System,簡易知識組織系統),本文“語意網”那段將有説明。

[註2]
1. 都柏林核心集及後設資料應用國際會議DC-2008(International Conference on Dublin Core and Metadata Applications)上的一篇報告說明了LC的這項實驗計畫:LCSH, SKOS and Linked Data - Ed Summers, Antoine Isaac, Clay Redding, Dan Krech (PDF);大陸的Keven也寫了一篇相關的文章:SKOS版的LCSH,該文末提到:

“9、希望不久看相到《中国图书馆图书分类法》、《汉语主题词表》、《中国分类主题词表》或其他国内规范的知识组织体系,尽快成为网络资源可用的工具……这是传统知识组织方式(主题表、叙词表、分类法等)在网络时代生存下去、发扬光大的必由之路。”

2. 大陸的《中国分类主题词表》(CCT)(書目評介)。遠洋過客的報告及文章:SKOS and Its Application inTransferring Traditional Thesauri into Networked Knowledge Organization Systems (PPT/PDF)、SKOS用于《中分法〉的编码和转型、及CCT2 senariors (metadata wiki)。

[註3] 參見code4lib年會的一些議題(二):RDA問題探討 (秋聲Blog)



[相關資料]
知識本體的發展及其在知識組織系統之應用/陳昭珍等 檔案季刊 v5n2 p79-98

語意網(Semantic Web)與知識本體(Ontology) /柯皓仁. 中華民國圖書館學會96年資訊組織進階班:主題分析與知識組織研習手冊

數圖研究笔記(Keven's Blog) DC2008聽會記系列博文

2008/10/14

今天是開放近用日(Open Access Day)



今天(2008.10.14)是全球第一次的“開放近用日”(Open Access Day),這是由美國學術出版及資源聯盟(SPARC)、自由文化學生組織(Students for Free Culture)及非營利的科學公共圖書館組織(PLoS, Public Library of Science) [註1]聯合主辦的活動,是為了幫助大家了解什麼是“開放近用”(Open Access),包括最近的一些相關法令及政策。 [註2]

開放近用(OA)已漸擴大成為一國際性的運動,為了科學及社會的進步,它欲利用網際網路(internet)去開啟那些被鎖緊的知識之門、鼓勵沒有限制地分享人們的研究成果。開放近用的原則:由公共經費支助的研究(成果)在出版後,應該提供線上免費取用。
.
學者Peter Suber對OA的簡介(PDF)說到:OA的文獻是數位化的、線上取用的、免費的、及大多數無版權限制的。因為有internet及作者(或版權持有人)的同意才能實現OA。OA與同儕評閱(peer review)文章的作法是相容的,主要的OA學術文獻先導計畫都堅持同儕評閱的重要性。OA文獻的產生並非不用錢的,問題不在是否可以不用花錢就產生學術文獻,而在是否有更好的辦法去支付這些費用,而不致於向讀者收費及阻礙取用。付費的商業模式端賴如何去實行OA (how OA is delivered)。
.
有兩種主要的方式(機制)去推行OA:經由OA性質的期刊(OA期刊)及OA典藏庫(OA journals and OA archives or repositories)。

1) OA期刊:這類期刊將經過同儕評閱的文章,提供給全世界免費使用。其中的花費包括同儕評閱、原稿的準備、及電腦伺服器等費用。如何支付這些費用呢?這採取類似廣播電視的方式:由有意傳播內容者先行資助。有時期刊會有來自主辦單位(大學或學會)所提供的津貼;有時期刊的處理費可由作者或他的資助單位支付。我們還有很大的空間去找出其他付費的方式。
.
2) OA典藏庫:其中的文章並未經過同儕評閱,包括有未經審定、未出版的文章(unrefereed preprints)或經過審定、已出版的文章(refereed postprints)。典藏庫可能是屬於大學或各專科領域的機構。作者不需經過他人的核准即可將自己未出版的文章存檔於此,而且大多期刊出版者已允許作者將其已出版的文章存檔。如該典藏庫遵循OAI協定[註3],那麼讀者就可方便地查詢到典藏庫的資料了。
.
Open Access Day網站還提出了教授、圖書館員、大學機構…如何去推廣開放近用,在圖書館員方面,列出了七項 (PDF):

1. 成立一個開放近用且符合OAI協定的機構數位化檔案庫(儲存文獻及數據資料)。
2. 協助教授將其研究論文存於學校機構的檔案/典藏庫。
3. 考慮出版一份OA的期刊 (有舉例,在此省略)。
4. 考慮拒絕大額的購案或停訂一些昂貴的期刊,且向外發表聲明說明理由。
5. 著手為地方上的非營利組織或團體進行資源數位化計畫,並張顯OA的好處。
6. 加入「學術出版及資源聯盟」(SPARC)。
7. 加入「納稅人近用聯盟」 (The Alliance for Taxpayer Access, ATA) 。
.
[註1]PLoS致力於科學文獻的開放近用。
[註2]最近美國很重要的相關法令便是NIH公共近用政策(NIH Public Access Policy),詳“開放近用與著作權的爭議:看美國NIH公共近用政策”一文。
[註3] 數位圖書館分散式協定(SOAP, OAI, OpenURL)其中的解釋(國圖)(PDF)
.
[相關資訊]
毛慶禎老師課程資訊(Maolins)開放近用資訊
Open Access Day (Library Views)
從傳統到開放的學術期刊出版:開放近用出版相關問題初探(李治安)(PDF)
挑戰學術期刊權威 哈佛首試網上開放閱讀

2008/10/05

ISBD、FRBR、RDA之間的關係

當我看完(大陸)編目精靈的“ISBD著录用标识符有何用?”後,便好奇去看ISBD(International Standard Bibliographic Description,國際書目著錄標準) [註1]原文,於是想到ISBD與其他編目規範的關係。

先說明一下ISBD新版的情形。國際圖書館協會聯盟(IFLA)於去年(2007)公布了國際書目著錄標準(ISBD)的新版本,即“初步統一版”(preliminary consolidated edition) [註2],將過去針對不同資料類型(如:圖書、電子資源、地圖…等)的諸多ISBDs合併為一。這是一份重要的描述性編目的基礎規範,它會影響到各種編目規則(如:RDA或各國的編目規則)的製訂或修改。

ISBD新版的中譯本已出版(大陸顧犇先生翻譯,北京圖書館出版社出版),題名為《国际标准书目著录(ISBD)统一版》。該書簡介提到“…出版ISBD統一版的根本目的在於為全世界的描述性編目提供一致性的約束,以幫助在全世界圖書館與資訊機構之間實現書目記錄的國際交換;適應不同級別編目機構的需要;加強著錄元素的識別與著錄資訊源的選擇[註3];克服書目記錄的語言障礙;易於將書目記錄轉化為電子形式;關注編目工作的成本和效率。”

在ISBD原文(英文版)的導言中(p.viii)提到:我們用ISBD來描述“載體表現”(manifestations),我們採取的方式是:以編目員對手頭上的書(單件,item)的描述來代表對整個“載體表現”的描述(In general, the ISBD is applied to describe manifestations, by means of description of the item in hand as an exemplar of the entire manifestation , using FRBR terminology)。

ISBD與FRBR

在ISBD導言(p.ix)中說明了ISBD與FRBR的關係,現摘譯重點:

ISBD and FRBR relationship (ISBD與FRBR的關係)
當ISBD審閱小組(ISBD Review Group)試著將ISBD的詞彙與FRBR的詞彙(work, expression, manifestation, item)作調適時,遇到了困難。FRBR的詞彙是在“實體—關係”模型下定義出來的,其中包含一種比ISBD具體規範更高層次的抽象含義。小組後來同意採“國際編目規則專家會議”(IME-ICC)法蘭克福會議的建議[註4],避免在ISBD中使用FRBR的詞彙。因此小組決定在ISBD詞彙方面作一些變動,其中包括:使用“resource”而不用“item”或“publication”。因為“item”在先前ISBD舊版中的用法與FRBR中“item”的用法不同,為避免混淆。
為表明ISBD與FRBR是合諧的,小組擬訂出“ISBD中元素與相對應的FRBR中實體/屬性或關係的對照表”(Mapping ISBD Elements to FRBR Entity Attributes and Relationships, 2004)。

RDA與FRBR

再看目前研擬中的新編目規則“資源描述與檢索”(RDA),它的詞彙倒是與FRBR很密切、一致的。 [註5] 在RDA的範圍與原則(RDA Scope and Principles)說明裡,即開宗明義說RDA的基礎是FRBR及FRAD的觀念模型(Underlying RDA are the conceptual models FRBR (Functional Requirements for Bibliographic Records) and FRAD (Functional Requirements for Authority Data)。

RDA與ISBD

RDA的說明書(RDA Prospectus/ A New Approach)中提到RDA的設計重點之一便是要劃清資料的記錄(recording)與資料的呈現兩者間的界線。RDA主要的重點在提供記錄(著錄)資料的指引與說明,這是可以獨立於任何資料儲存(或顯示)的結構(或語法)的。如何依據ISBD等標準規範來編組資料單元(書目資料單元)以供資料呈現,關於這部分的指引與說明將列於RDA的附錄中 (Guidelines and instructions on formatting data elements for purposes of presentation according to specifications set out in standards such as the International Standard Bibliographic Description (ISBD) will be provided separately in appendices)。 [註6]

(結語)
ISBD、FRBR、RDA各有不同的作用,但又相互關連,但因所用詞彙並不一致及表達的事物不同,所以需有彼此之間的對照表(ISBD與FRBR的對照表在前面提過,而RDA與FRBR也有對照表(PDF)、將來RDA與ISBD會有對照表)。或許對一般編目員來說,最切身的是編目規則,而編目規則後面的一些原理較少觸及。
-------------------------------------------------------------------------------------

[註1]ISBD,台灣譯作“國際書目著錄標準”,大陸譯作“國際標準書目著錄”。

[註2]為何稱"preliminary consolidated edition"?我想是因為其中的GMD(General Material Designation,資料類型標識)正在修正中,待其完成後,現有之ISBD勢必會再作更新。參見ISBD原文 p. viii。其他相關資料:陳和琴教授之「資料類型標示再探」簡介

[註3]這句可能是ISBD導言中的原則之一(Principles -- The descriptive elements needed to identify and select a resource must be specified),我的解讀是:在辨識及選擇資料時需要用到的描述性元素(如:題名/書名、作者…),在ISBD中必須明確訂出來。

[註4] IME-ICC法蘭克福會議的建議:不應僅將FRBR的詞彙併入ISBD或編目規則內,而是這些規範(ISBD、編目規則)應保有自己特殊的詞彙,並表明這些詞彙和FRBR詞彙的關連性。

[註5] 見RDA: Where We Are and How We Got There(PDF)(Glenn Patton) p.11或
RDA Objectives and Principles 2007/12/16, p.3 Terminology (PDF)

[註6] (RDA的附錄)Appendix D will provide guidelines and instructions on record syntaxes for descriptive data. The appendix will include a table showing how specific data elements covered in RDA can be mapped to the areas and elements defined in the ISBDs to produce a display that follows the established ISBD order of elements and prescribed punctuation. Instructions on the presentation of “In” analytics and hierarchical descriptions based on ISBD specifications will also be included.(摘自RDA Prospectus/Appendices)

[相關資訊]
《国际标准书目著录》及其最新发展 / ISBDs and Their Recent Developments(顧犇)

ISBD總則著錄 (毛慶禎老師的課程資料)

rev on 20081007 09:30