WEB挖掘:數據挖掘的一種方式-中文百科頻道

介紹

内容挖掘

Web内容挖掘是指對Web頁面内容及後台交易數據庫進行挖掘，從Web文檔内容及其描述中的内容信息中獲取有用知識的過程。同時還可以對Web的組織結構和鍊接關系進行挖掘，從人為的鍊接結構中獲取有用的知識。由于文檔之間的互連，WWW能夠提供除文檔内容之外的有用信息。利用這些信息，可以對頁面進行排序，發現重要的頁面。

使用記錄挖掘

Web使用記錄挖掘是通過挖掘相應站點的日志文件和相關數據來發現該站點上的浏覽者的行為模式，獲取有價值的信息的過程。

目标

從Web的超鍊接結構、網頁内容和使用日志中探尋有用的信息。雖然Web挖掘使用了許多數據挖掘技術，但它并不僅僅是傳統數據挖掘的一個簡單應用。在過去20年中，許多新的挖掘任務和算法被相繼發明。依據在挖掘過程中使用的數據類别，Web挖掘任務可以被劃分為三種主要類型：Web結構挖掘、Web内容挖掘和Web使用挖掘。

1、Web内容挖掘實現技術

Web上的内容挖掘多為基于文本信息的挖掘，它和通常的平面文本挖掘的功能和方法比較類似。利用Web文檔中部分标記，如Title、Head等包含的額外信息，可以提高Web文本挖掘的性能。

（1）文本總結。文本總結是指從文檔中抽取關鍵信息，用簡潔的形式對文檔内容進行摘要或解釋。其目的是對文本信息進行濃縮，給出它的緊湊描述。這樣，用戶不需要浏覽全文就可以了解文檔或文檔集合的總體内容。

（2）文本分類。分類是在已有數據的基礎上學會一個分類函數或構造出一個分類模型，即通常所說的分類器。

文本聚類。文本聚類把一組文檔按照相似性歸成若幹類别。方法大緻可分為層次凝聚法和平面劃分法兩種類型。

（3）關聯規則。發現關聯規則的算法通常要經過以下三個步驟：連接數據，作數據準備；給定最小支持度和最小可信度，利用數據挖掘工具提供的算法發現關聯規則；可視化顯示、理解、評估關聯規則。

2、Web使用記錄挖掘實現技術

在挖掘Web用戶使用記錄時描述用戶訪問的數據包括：IP地址、參考頁面、訪問日期和時間、用戶Web站點及配置信息。

發現用戶使用記錄信息的方法有兩種。一種方法是通過對日志文件進行分析，包含兩種方式：一是先進行預處理，即将日志數據映射為關系表并采用相應的數據挖掘技術來訪問日志數據；二是直接訪問日志數據以獲取用戶的導航信息。另一種方法是通過對用戶點擊事件的搜集和分析發現用戶導航行為。

能挖到什麼

1、獲取競争對手和客戶信息。Web不僅由頁面組成，而且還包含了從一個頁面指向另一個頁面的超鍊接。一個Web頁面的作者建立指向另一個頁面的指針，就可以看作是作者對另一頁面的認可。把另一頁面的來自不同作者的注解收集起來，就可以用來反映該頁面的重要性，并可以很自然地用于權威頁面的發現。另外一種重要的Web頁面是一個或多個Web頁面，它提供了指向權威頁面的鍊接集合，稱為Hub。Hub頁面本身可能并不突出，或者說可能沒有幾個鍊接指向它們，但是Hub頁面卻提供了指向就某個話題而言最為突出的站點的鍊接。通過分析這類信息，企業可以獲得零售商、中間商、合作商以及競争對手的信息。

2、發現用戶訪問模式。通過分析和探究Web日志記錄中的規律，可以識别電子商務的潛在客戶，提高對最終用戶的服務質量，并改進Web服務器系統的性能。Web日志記錄數據庫提供了有關Web動态的，基于URL、時間、IP地址和Web頁面内容的豐富信息，對它們進行分析，有助于發現潛在客戶、用戶和市場,有助于聚類用戶并将用戶分門别類，以實現個性化的市場服務。

3、反競争情報活動。反競争情報是企業競争情報活動的重要組成部分。忽視競争對手的競争情報活動、低估競争對手搜集競争情報的能力勢必導緻企業失去已有的競争優勢。Web站點是企業與外界進行交流的窗口，同時也是競争對手獲取競争情報的一個重要信息源。在競争情報計算機系統中，可以充分利用Web挖掘技術，通過運用分析訪問者的IP地址、客戶端所屬域、信息訪問路徑，統計敏感信息訪問率等方法識别競争對手，保護企業敏感性信息。

WEB挖掘

介紹

内容挖掘

使用記錄挖掘

目标

能挖到什麼

相關詞條

相關搜索

其它詞條