秋聲 Blog: 下一代搜尋引擎的相關文章

2006/11/05

下一代搜尋引擎的相關文章

一篇值得參考的文章：下一代搜索引擎 (大陸新華網.傳媒在線，杜小勇撰)，節錄部份文字：
-
幾乎每一個上網的人都會使用搜索引擎，圍繞搜索已經形成一個重要的產業鏈，有些媒體甚至造出了“搜索經濟”這個詞。
第二代搜索引擎...創新性地提出了頁面重要性分析技術 pageranking 技術和超鏈分析技術等，將最重要的頁面優先呈現給用戶。代表產品就是GOOGLE。與YAHOO不同的是，GOOGLE並不對文獻進行分類，而是從文獻中識別出“關鍵字”來，然後建立倒排索引。也就是說文獻是用一組關鍵字列表來表示的，這就是網路資源的資料模型。這一模型的好處就是電腦可以自動地完成，無需人工干預，這使得大規模的搜索成為可能。
然而，在這裏“關鍵字”僅僅是出現在網頁中的符號而已，它所指代的語義並沒有被使用。頁面分析所依據的也是存在於頁面之間的鏈結關係，它不能表示這些頁面本身包含什麼資訊...搜索引擎不能理解存在於網頁中的資訊的語義。為了解決這些問題，搜索引擎必須能夠表達和處理語義資訊。所以，我們相信，下一代搜索引擎的資料模型必須是語義資料模型。我們認為語義網（Semantic Web）是這種語義模型的最好的選擇。
筆者以為如何為用戶的學習和工作營造一個個性化的資訊空間，是未來搜索引擎應該追求的方向，這裏包括如何表達資訊需求，如何展示/流覽搜索結構，如何對個性化的資訊需求建立模型等等。從這種意義上講，下一代搜索引擎將是個性化的。
有一種觀點認為，下一代搜索引擎應能處理深層網頁（DEEP WEB）。所謂深層搜索是指搜索那些放在資料庫中的資訊。目前的搜索引擎主要處理普通的網頁（稱為淺層網頁），對於深層網頁的資訊難以搜索，而據說這樣的資訊是普通網頁的500倍。顯然，如何能夠將搜索引擎的觸角深入到資料庫裏去，是下一代搜索引擎所關心的。
-
[其他參考資訊]
人工智能與語意網 (網絡暴民 Jacky’s Blog )
下一代的網路世界--語義網 (Bojack's Blog)
(補充) 搜尋引擎討論 (pdf) 吳俊德
-
Originally posted on 2006/09/02, rev on 2006/09/03

沒有留言:

張貼留言