暗網

暗網

隐藏網絡
暗網(作深網,不可見網,隐藏網)是指那些存儲在網絡數據庫裡、不能通過超鍊接訪問而需要通過動态網頁技術訪問的資源集合,不屬于那些可以被标準搜索引擎索引的表面網絡。邁克爾·伯格曼将當今互聯網上的搜索服務比喻為像在地球的海洋表面的拉起一個大網的搜索,大量的表面信息固然可以通過這種方式被查找得到,可是還有相當大量的信息由于隐藏在深處而被搜索引擎錯失掉。絕大部分這些隐藏的信息是須通過動态請求産生的網頁信息,而标準的搜索引擎卻無法對其進行查找。傳統的搜索引擎“看”不到,也獲取不了這些存在于暗網的内容,除非通過特定的搜查這些頁面才會動态産生。于是相對的,暗網就隐藏了起來。
    網站名稱: 别名: 創始人: 總部地點: 主辦單位: 網站類型: 網站口号: ICP備案号: 中文名:暗網 英文名:Deep Web 性質:大于幾個數量級表面網站 屬性:搜索引擎索引

暗網的定義

暗網(作深網,不可見網,隐藏網)是指那些存儲在網絡數據庫裡、不能通過超鍊接訪問而需要通過動态網頁技術訪問的資源集合,不屬于那些可以被标準搜索引擎索引的表面網絡。

邁克爾·伯格曼将當今互聯網上的搜索服務比喻為像在地球的海洋表面的拉起一個大網的搜索,大量的表面信息固然可以通過這種方式被查找得到,可是還有相當大量的信息由于隐藏在深處而被搜索引擎錯失掉。絕大部分這些隐藏的信息是須通過動态請求産生的網頁信息,而标準的搜索引擎卻無法對其進行查找。傳統的搜索引擎“看”不到,也獲取不了這些存在于暗網的内容,除非通過特定的搜查這些頁面才會動态産生。于是相對的,暗網就隐藏了起來。

來源現狀

HiddenWeb最初由Dr.JillEllsworth于1994年提出,指那些沒有被任何搜索引擎索引注冊的網站:

“這些網站可能已經被合理地設計出來了,但是他們卻沒有被任何搜索引擎編列索引,以至于事實上沒有人能找到他們。我可以這樣對這些不可見的網站說,你們是隐藏了的。”另外早期使用“不可見網絡”這一術語的,是一家叫做“個人圖書館軟件”公司的布魯斯·芒特(産品開發總監)和馬修·B·科爾(首席執行官和創建人),當他們公司在1996年12月推出和發行的一款軟件時,他們對暗網工具的有過這樣的一番描述:

不可見網絡這一術語其實并不準确,它描述的隻是那些在暗網中,可被搜索的數據庫不被标準搜索引擎索引和查詢的内容,而對于知道如何進入訪問這些内容的人來說,它們又是相當可見的。

第一次使用暗網這一特定術語,是2001年伯格曼的研究當中。

從信息量來講,與能夠索引的數據相比,“暗網”更是要龐大得多。根據BrightPlanet公司此前發布的一個名為《TheDeepWeb-SurfacingTheHiddenValue》(深層次網絡,隐藏的價值)白皮書中提供的數據,“暗網”包含100億個不重複的表單,其包含的信息量是“非暗網”的40倍,有效高質内容總量至少是後者的1000倍到2000倍。更讓人無所适從的是,BrightPlanet發現,無數網站越來越像孤立的系統,似乎沒有打算與别的網站共享信息,如此一來,“暗網”已經成為互聯網新信息增長的最大來源,也就是說,互聯網正在變得“越來越暗”。

當然,所謂“暗網”,并不是真正的“不可見”,對于知道如何訪問這些内容的人來說,它們無疑是可見的。2001年,ChristSherman、GaryPrice對HiddenWeb定義為:雖然通過互聯網可以獲取,但普通搜索引擎由于受技術限制而不能或不作索引的那些文本頁、文件或其它通常是高質量、權威的信息。根據對HiddenWeb的調查文獻得到了如下有意義的發現:

(1)HiddenWeb大約有307,000個站點,450,000個後台數據庫和1,258,000個查詢接口。它仍在迅速增長,從2000年到2004年,它增長了3~7倍。

(2)HiddenWeb内容分布于多種不同的主題領域,電子商務是主要的驅動力量,但非商業領域相對占更大比重。

(3)當今的爬蟲并非完全爬行不到HiddenWeb後台數據庫内,一些主要的搜索引擎已經複蓋HiddenWeb大約三分之一的内容。然而,在複蓋率上當前搜索引擎存在技術上的本質缺陷。

(4)HiddenWeb中的後台數據庫大多是結構化的,其中結構化的是非結構化的3.4倍之多。

(5)雖然一些HiddenWeb目錄服務已經開始索引Web數據庫,但是它們的複蓋率比較小,僅為0.2%~15.6%。

(6)Web數據庫往往位于站點淺層,多達94%的Web數據庫可以在站點前3層發現。

暗網分類

它分為兩種:

一種是技術的原因,很多網站本身不規範、或者說互聯網本身缺少統一規則,導緻了搜索引擎的爬蟲無法識别這些網站内容并抓取,這不是搜索引擎自身就能解決的問題,而是有賴整個網絡結構的規範化,百度的“阿拉丁計劃”、谷歌的“雲計算”就是要從根本解決這一問題。

另一個原因則是很多網站根本就不願意被搜索引擎抓取,比如考慮到版權保護内容、個人隐私内容等等,很多網站都在屏蔽百度、比如視頻網站優酷也宣布屏蔽百度一樣,這更不是搜索引擎能解決的問題了。如果他們能被搜索引擎抓取到,就屬于違法了。

數據顯示,能夠搜索到的數據僅占全部信息量的千分之二。而對暗網的發掘能擴大搜索數據庫,使人們能夠在搜索引擎上搜索到更多的網頁、信息。

幾乎任何有抱負的通用搜索引擎都有一個共同的夢想:整合人類所有信息,并讓大家用最便捷的方式各取所需。

對此,百度說:“讓人們最便捷地獲取信息,找到所求”;谷歌說:“整合全球信息,使人人皆可訪問并從中受益”。這兩者表達的實際上是同一個願景。

然而,這注定是一項不可能完成的任務。據科學家估測,人類信息大概隻有0.2%實現了web化,并且這個比例很可能在持續降低。更甚的是,即便在已經Web化的信息中,搜索引擎的蜘蛛能抓取到的和不能抓取到的比例為1:500。

萬裡長征的第一步即是對付“暗網”。所謂“暗網”,簡言之即為“搜索引擎抓取不到的網頁數據”。點亮“暗網”早已納入各大搜索引擎的日程之中,很明顯,這将是一場曠日持久的戰争。

警惕

今年6月,雲南省羅平縣人民法院也公布了一起利用“暗網”侵犯公民個人信息的案例。被告人在境外網站發帖,标明提供個人戶籍、全家戶籍、開房記錄、同住記錄等公民個人信息的服務項目及價格,并在“暗網”市場上以比特币交易,于2018年4月至11月期間,非法獲取、出售多人個人信息1000餘條,獲利1.33315比特币,并将1.30948比特币兌換成人民币41397.35元。

5月7日,江蘇省南通市公安局公布,經過4個多月的缜密偵查,江蘇南通、如東兩級公安機關破獲了一起特大“暗網”侵犯公民個人信息案,抓獲犯罪嫌疑人27名,查獲被售賣的公民個人信息數據5000多萬條。這起案件也被公安部列為2019年以來全國公安機關偵破的10起侵犯公民個人信息違法犯罪典型案件之一。

相關詞條

相關搜索

其它詞條