2007/06/12

Google與CIC合作,千萬冊館藏將數位化

Google於2007.6.6與美國中西部大學合作委員會(Committee on Institutional Cooperation, CIC)簽約合作[1],將進行CIC聯盟的大學圖書館約一千萬冊館藏的數位化工作。CIC為美國重要的圖書館聯盟,包括12所中、西部大學,圖書館總藏書量超過7500萬冊。這次加入Google Book Search(即Google Books Library Project)計畫,將挑選約一千萬無版權限制的書進行數位化,其中包括許多可貴的特色館藏
.
CIC成為第16個Google合作的圖書館夥伴,在這項先導計畫(initiative)中 Google將提供屬於公共領域(public domain)資料的數位化複本一份予CIC收存,供其建立自己的數位典藏庫。[2] CIC的主管(director) B. McFadden Allen提到“在極短時間內我們即能瀏覽千萬冊書的內容、檢索其中字詞、連結至全文,這原需花數週至數年的精心分析[才能做到]”。[3]這也是CIC聯盟合作事項或稱聯合取用資源的一個例子(an example of collaborative sourcing)。
.
Google Book Search涵蓋內容不斷快速擴大,對圖書館方面的衝擊及影響為何?站在圖書館服務前端最有力的全球性組織OCLC的副總裁Lorcan Dempsey提到:這將影響至“[圖書館]全面性的改變”,見Systemic change: CIC and Google 一文。其中許多前瞻性的看法值參考:
.
一、關於此次CIC的決定,Dempsey提到“在一個重組(reconfigured)的網路環境下,圖書館支援著正在改變中的研究及學習行為”,圖書館面對的是規模大的資源合作與取用,與Google合作即是一例。
.
二、與“取用”(access)相關的影響:
.
1.全文數位化使文獻內的一些細節可以發掘,它的好處顯而易見。這種方式提昇了使用率及銷售。沒有這種方式,書籍文獻會比網路文獻少被取用。
2.Google 從學術搜尋、網頁及書籍中探勘相關資源並將其連繫起來,我們可以看到相關版本聚集在一起…當資料量益大及技術更精進時,這種服務將變得更好,是其他競爭者難以趕上的。
3. Google 是個依賴廣告的搜尋引擎(an advertizing engine),而非採一種較“資料服務”(data services)的方式,可能難於供眾利用它的內容及服務來作混搭利用。如果是這樣,則資源的可利用價值將會降低。這點還待觀察。(參閱另篇討論search API的文章)。[4]
4.這種網上取用廣大館藏的方式對參與館更顯重要,聯盟的廣大館藏及其產生的網路效益遠超過個別圖書館所能做的。
.
三、這不僅是大規模數位化(mass digitization)的問題,更對圖書館資源的管理方式有全面性的影響,從下列幾點來看:

1. 資源的公開、發掘、傳遞(Disclosure, discovery, delivery):在網路環境下,資源的發掘及傳遞的動態正在改變。圖書館希望Google Book Search的使用者知道在他們的學校裡,有哪些資源可利用。
2. 聯合館藏(Collective collection):越多資料數位化,我們將更會思考如何共同地管理館藏。
3. 著作權議題(Copyright ):能有效率地決定資料在不同生命週期的著作權狀況,這是很重要的。但現在還未能做到。
4. 知識組織( Knowledge organization):圖書館、博物館等建立的結構性書目資料需在網路上發揮其價值。Google已作全文探勘,如果進一步對資料再作電腦運算、處理,或許有機會在大規模全文資料中支援身份(人名、地名等)的辨識(identity identification)。
5. 數位資源保存(Preservation)

當今的課題是--在此網路環境下,圖書館整體資源如何重組?(how does the systemwide library resource reconfigure in a network environment)。對OCLC或類似其他機構來說,很重要的是:和圖書館合作發展網路規模(web-scale)的[事項]以回應網路環境下使用者的期望。

[一點點感想]
Google大規模數位化的行動之背後仍有許多疑點、大規模性資源的運用是種趨向且量大促成質變(所謂scale matters)、圖書館如何因應這質變?


[1] 見CIC Press Release 或 Google Announcement
[2] “Google will provide the CIC with a digital copy of the public domain materials that are targeted for this project… As a part of the agreement, the consortium also will create a first-of-its-kind shared digital repository to collectively archive and manage the full content of public domain works digitized by Google that are held across the CIC libraries.”(CIC Press Release, p.2)
[3] “ In seconds, we'll be able browse across the content of thousands of volumes, searching for words or phrases, and making links across those texts that would have taken weeks or months or years of dedicated and scrupulous analysis.”(A statement from the Director)
[4]這段內容較技術性,不知是否會誤解(?),故附上原文:Currently this material is made available within the Google destination site. Google is an advertizing engine and its approach depends on aggregating attention for adverts. This apporach may be difficult to deploy within a more 'data services' approach where others - especially the partners - have remixable access to content and services. However, the 'utility' value of this resource will be diminished if it is not made available in this way so that others can mobilize these resource within their own environments. How and if this gets done remains to be seen. (See the related discussion about the search API.)

2 則留言:

ted 提到...

謝謝 Debra 的整理和翻譯 :)

Debra 提到...

謝謝Ted.如有錯誤請指正。