一篇值得參考的文章:下一代搜索引擎 (大陸新華網.傳媒在線 , 杜小勇撰),節錄部份文字:
-
幾乎每一個上網的人都會使用搜索引擎,圍繞搜索已經形成一個重要的產業鏈,有些媒體甚至造出了“搜索經濟”這個詞。
第二代搜索引擎...創新性地提出了頁面重要性分析技術 pageranking 技術和超鏈分析技術等,將最重要的頁面優先呈現給用戶。代表產品就是GOOGLE。與YAHOO不同的是,GOOGLE並不對文獻進行分類,而是從文獻中識別出“關鍵字”來,然後建立倒排索引。也就是說文獻是用一組關鍵字列表來表示的,這就是網路資源的資料模型。這一模型的好處就是電腦可以自動地完成,無需人工干預,這使得大規模的搜索成為可能。
然而,在這裏“關鍵字”僅僅是出現在網頁中的符號而已,它所指代的語義並沒有被使用。頁面分析所依據的也是存在於頁面之間的鏈結關係,它不能表示這些頁面本身包含什麼資訊...搜索引擎不能理解存在於網頁中的資訊的語義。為了解決這些問題,搜索引擎必須能夠表達和處理語義資訊。所以,我們相信,下一代搜索引擎的資料模型必須是語義資料模型。 我們認為語義網(Semantic Web)是這種語義模型的最好的選擇。
筆者以為如何為用戶的學習和工作營造一個個性化的資訊空間,是未來搜索引擎應該追求的方向,這裏包括如何表達資訊需求,如何展示/流覽搜索結構,如何對個性化的資訊需求建立模型等等。從這種意義上講,下一代搜索引擎將是個性化的。
有一種觀點認為,下一代搜索引擎應能處理深層網頁(DEEP WEB)。所謂深層搜索是指搜索那些放在資料庫中的資訊。目前的搜索引擎主要處理普通的網頁(稱為淺層網頁),對於深層網頁的資訊難以搜索,而據說這樣的資訊是普通網頁的500倍。顯然,如何能夠將搜索引擎的觸角深入到資料庫裏去,是下一代搜索引擎所關心的。
-
[其他參考資訊]
人工智能與語意網 (網絡暴民 Jacky’s Blog )
下一代的網路世界--語義網 (Bojack's Blog)
(補充) 搜尋引擎討論 (pdf) 吳俊德
-
Originally posted on 2006/09/02, rev on 2006/09/03
沒有留言:
張貼留言