計算機, 程序設計
什麼是爬蟲? 履帶式工具“Yandex的”和谷歌
在互聯網上每天有一個巨大的新材料量,以創建一個網站更新了舊的網頁,上傳照片和視頻。 如果沒有搜索引擎隱藏無法在萬維網中找到,這些文獻都沒有。 像機器人程序的替代品,在任何給定的時間不存在。 什麼是搜索機器人,你為什麼需要它,以及如何操作?
什麼是搜索機器人
履帶網站(搜索引擎) - 這是一個自動程序,它是能夠訪問數以百萬計的網頁,通過互聯網快速導航,沒有任何操作員干預。 機器人也在不斷掃描空間萬維網的,尋找新的網頁,並定期訪問已建立索引。 對於網絡爬蟲蜘蛛,爬蟲,機器人等名稱。
為什麼搜索引擎蜘蛛
網頁索引,以及文本,圖像,音頻和那些對他們的視頻文件 - 執行搜索引擎蜘蛛的主要功能。 機器人檢查引用,鏡像站點(副本)和更新。 機器人還進行了世界組織,這為萬維網開發和實施技術標準的合格標準HTML代碼控制。
什麼是索引,為什麼它是需要
索引 - 是的,其實,是由搜索引擎訪問特定網頁的過程。 該程序掃描本網站上的文字,圖像,視頻,出站鏈接,則該頁面將出現在搜索結果中。 在某些情況下,該網站不能被自動掃描,然後它可以被添加到搜索引擎手動站長。 通常,這發生在不存在 外部鏈接 到特定的(通常是唯一的最近創建的)頁面。
如何搜索引擎蜘蛛
每個搜索引擎都有自己的機器人與谷歌搜索機器人根據作用機理可顯著變化工作在一個類似的計劃,“Yandex的”或其他系統。
一般情況下,機器人的工作原理如下:程序“來”在現場,並從主網頁外部鏈接,“閱讀”Web資源(包括那些尋找開銷不會看到用戶)。 船是怎樣一個網站的頁面之間進行導航和移動到其他人。
該計劃將選擇哪個網站索引? 更多的往往不是“跳”蜘蛛新聞網站和主要資源目錄和集成商與大的參考權重開始。 履帶連續掃描的速度和索引以下因素的一致性逐個頁面:
- 內部:perelinovka,場地大小,正確的代碼,用戶友好等(同一資源的頁面之間的內在聯繫);
- 外部:總參考重量,從而導致該網站。
首先通過robots.txt的任何網站搜索機器人進行搜索。 進一步的資源索引是根據接收到的信息是從該文件執行。 此文件包含“蜘蛛”,可以通過搜索引擎提高頁面訪問的機會,並因此實現在“Yandex的”或谷歌早期的命中網站的具體說明。
計劃類似物爬蟲
通常,術語“搜索機器人”被混淆智能,用戶或自主代理,“螞蟻”或“蟲”。 只有在與代理商比較沉浸顯著差異,其他的定義指的是相似類型的機器人。
例如,試劑可以是:
- 智力:程序,這是從站點到站點移動,獨立決定如何進行; 他們不是在互聯網上非常普遍;
- 自治區:這些代理幫助用戶選擇產品,搜索,或填寫表格,即所謂的過濾器,這是很少涉及的網絡程序。
- 用戶:該程序有助於用戶交互與萬維網,瀏覽器(例如,歌劇,IE瀏覽器,谷歌Chrome,火狐),信使(Viber的,電報)或電子郵件程序(MS Outlook和高通)。
“螞蟻”和“蟲”更類似於搜索引擎的“蜘蛛”。 一個網絡和一致地之間的第一形式類似這樣的蟻群相互作用,“蠕蟲”是能夠在其它方面相同的標準履帶複製。
搜索引擎機器人的品種
許多類型的爬蟲的區分。 根據該計劃的目的,他們是:
- “鏡報” - 重複瀏覽的網站。
- 手機 - 專注於網頁的移動版本。
- 快速 - 通過查看最新更新迅速解決新的信息。
- 參考 - 參考指數,計算它們的數量。
- 索引不同類型的內容 - 文本,音頻,視頻,圖像的具體方案。
- “間諜軟件” - 尋找還未被顯示在搜索引擎的網頁。
- “啄木鳥” - 定期訪問網站,檢查其相關性和效率。
- 國家 - 瀏覽位於國家域名之一的網絡資源(例如,.MOBI,或.kz .ua)。
- 全球 - 索引的所有國家的網站。
機器人主要的搜索引擎
也有一些搜索引擎蜘蛛。 從理論上講,它們的功能可以有很大的不同,但在實踐中的程序幾乎是相同的。 索引網頁的主要區別用機器人兩大搜索引擎如下:
- 測試的嚴格性。 據認為,履帶式的機制“Yandex的”稍微嚴格估算網站是否符合萬維網的標準。
- 該遺址的完整性的保護。 該谷歌爬蟲索引整個網站(包括媒體內容),“Yandex的”也可以有選擇地查看內容。
- 速度測試新的頁面。 谷歌在幾天之內搜索結果中增加了新的資源,在“由Yandex的”過程的情況下,可能需要兩週或更長時間。
- 重新索引的頻率。 履帶式“Yandex的”檢查更新,每週兩次,和谷歌 - 一個每14天。
互聯網,當然不限於這兩個搜索引擎。 其他搜索引擎有他們的機器人誰遵循自己的索引參數。 此外,還有幾個“蜘蛛”,其設計不是主要的搜索資源,單個團隊或網站管理員。
常見的誤解
流行的看法相反,“蜘蛛”不處理信息。 該程序只掃描並存儲網頁和進一步的處理採用了一種完全不同的機器人。
此外,許多用戶認為,搜索引擎的蜘蛛有負面影響,“有害”的互聯網。 事實上,“蜘蛛”的某些版本中可以顯著服務器超載。 還有一種人的因素 - 站長,誰創建的程序,可以使機器人配置錯誤。 然而,大多數現有方案都精心設計和專業的管理,任何新出現的問題及時清除。
如何管理索引
搜索引擎機器人是自動程序,但索引進程可以通過網站管理員被部分地控制。 這大大有助於外部和 內部優化 的資源。 此外,您也可以手動添加一個新的網站,搜索引擎:大型資源具有網頁註冊的一種特殊形式。
Similar articles
Trending Now