大家好,蝸牛SEO上一節(jié)給大家分享了? HTTP返回狀態(tài)碼的含義,以及詳細(xì)使用方法。? 很多朋友都表示很喜歡,內(nèi)容很全面,不少朋友表示對(duì)其進(jìn)行了收藏。接下來呢,蝸牛將給大家繼續(xù)爆一個(gè)每個(gè)SEOER都喜愛不已的干貨。
搜索引擎爬行,抓取,索引與收錄。相信不止一個(gè)朋友,或者所是大多數(shù)朋友都對(duì)這個(gè)話題特別的感興趣。蝸牛SEO這次就會(huì)將這個(gè)驚天大秘密悄悄得告訴大家。(一般人我還真不告訴他)。
一、????? 爬行,抓取,索引,收錄原理
首先大家要明白一點(diǎn),各家搜索引擎有所不同,但是所有搜索引擎的工作原理都是千秋有同的。所以,只要你按照搜索引擎的喜好去做好了,那么,有一家搜索引擎喜歡上了你的網(wǎng)站,其它搜索引擎,想不喜歡都難。因?yàn)槟阋呀?jīng)成大眾情人了。
蜘蛛的工作原理是,進(jìn)入一個(gè)網(wǎng)站后,一邊爬行,一邊抓取。它在爬行的過程中沿著鏈接發(fā)現(xiàn)新頁面,然后“爬”過去抓取新頁面。爬行只是一個(gè)形象的比喻,實(shí)際上并不存在蜘蛛抓取文件時(shí)發(fā)現(xiàn)鏈接然后立即跟蹤過去這樣一個(gè)過程。
抓取是指蜘蛛發(fā)現(xiàn)新的頁面后,像瀏覽器一樣打開頁面,把頁面HTML代碼和圖像音樂等元素存入數(shù)據(jù)庫。顯然,爬行和抓取是相互交織的。抓取是實(shí)際發(fā)生的我們能夠觀察到的過程,在原始日志中,蜘蛛的抓取是有完整記錄的,比如:抓取確切時(shí)間、狀態(tài)碼、抓取的文件是哪個(gè)、抓取了多大文件等等。蜘蛛對(duì)頁面的抓取和瀏覽器讀取文件是基本一樣的。蜘蛛抓取文件后存入數(shù)據(jù)庫,程序解析出文件中的鏈接后將URL存入頁面地址庫,然后蜘蛛從地址庫中按一定規(guī)則選取URL進(jìn)行抓取。蜘蛛不是真的訪問頁面時(shí)看到一個(gè)URL就爬過去
索引指的是將一個(gè)URL的信息進(jìn)行各種整理,如去重、分詞等等,然后將關(guān)于這個(gè)URL的信息存入數(shù)據(jù)庫,被稱為索引庫。要注意的是,索引庫中關(guān)于URL的信息不僅是組成頁面內(nèi)容的關(guān)鍵詞及其特征(位置、格式等),還有鏈接、更新情況等信息。英文索引這個(gè)詞是index。
收錄是SEOer們最關(guān)心也最常用的詞,其實(shí)也是4個(gè)概念中最不明確的。被收錄指的是我們能查到頁面被搜索引擎存入了索引庫。但進(jìn)入索引庫的URL并不一定被抓取過,這和SEO們的直覺可能是不一樣的。
二、????? 搜索引擎會(huì)把什么樣的數(shù)據(jù)放進(jìn)索引庫呢?
通過蝸牛SEO的解釋,相信大家已經(jīng)清楚,只有你在網(wǎng)站上有更新,蜘蛛才會(huì)爬行過后進(jìn)行抓取,當(dāng)蜘蛛把抓取的頁面放進(jìn)數(shù)據(jù)庫,搜索引擎分析過后認(rèn)為有價(jià)值,他才會(huì)將內(nèi)容放進(jìn)索引庫。那么,搜索引擎會(huì)把什么樣的數(shù)據(jù)放進(jìn)索引庫呢?
新的,權(quán)威的,用戶認(rèn)可的,很少看見的,我想用這四個(gè)詞來形容最好不過了。
新的就是指原創(chuàng)的,在其它任何一個(gè)角落搜索引擎都沒有見過的。
權(quán)威的,是指受到信任的,權(quán)重高的,比如騰訊,新浪,搜狐,網(wǎng)易,你在上面發(fā)個(gè)垃圾信息,搜索引擎都會(huì)去收錄它。因?yàn)樗臋?quán)重高,它更新的內(nèi)容多,質(zhì)量高,被搜索引擎所重視。
用戶認(rèn)可的,你寫的內(nèi)容有讓用戶看下去的愿望,如果你寫得內(nèi)容死氣沉沉,用戶看著看著想睡覺,我想,用戶體驗(yàn)一定不會(huì)很好,那么搜索引擎也不會(huì)對(duì)這樣的網(wǎng)頁給予高的權(quán)重。
很少看見的,比如,四川發(fā)生地震,廣東多了一便SARS病例,深圳舉行大運(yùn)會(huì),北京舉行奧運(yùn)會(huì),這樣的信息,這樣的信息是具有很強(qiáng)的時(shí)效性的,機(jī)會(huì)稍縱即逝,所以這樣的網(wǎng)頁搜索引擎一抓到馬上就會(huì)把它放進(jìn)索引庫里面。
三、????? 收錄之后的展現(xiàn)
網(wǎng)頁收錄之后,自然是拿來給用戶看的,那么,我們?cè)趺粗滥男﹥?nèi)容被收錄了呢?
- 直接通過搜索引擎可以搜索到的數(shù)據(jù)
- 用site或是站長工具查詢到的收錄數(shù)據(jù)。
- 時(shí)間決定信任度,搜索引擎最先抓到的一般被認(rèn)為是原創(chuàng)。
- 收錄之后的排序,收錄到頁面之后,搜索引擎會(huì)進(jìn)行一個(gè)排序,根據(jù)相關(guān)度與質(zhì)量來給予相應(yīng)的排序。我們搜索到的一個(gè)關(guān)鍵詞的排序一般是由網(wǎng)站信任度與同業(yè)競爭度來決定的,因此出現(xiàn)了一些關(guān)鍵詞很容易排到前面,一些關(guān)鍵詞很難排到前面。
四、????? 如何讓快照更新,如何增加收錄量與關(guān)鍵詞的排名?
- 投搜索引擎之所好,多創(chuàng)作新的,用戶認(rèn)可的內(nèi)容。養(yǎng)成定時(shí)或定期更新的習(xí)慣,讓搜索引擎定時(shí)爬取。
- 多創(chuàng)作相關(guān)的,優(yōu)質(zhì)的內(nèi)容,讓搜索引擎與用戶認(rèn)可你的站點(diǎn),讓用戶直接訪問網(wǎng)站來獲取內(nèi)容,同時(shí)讓搜索引擎根據(jù)用戶的喜好來給你站點(diǎn)高的權(quán)重值。
關(guān)掉本節(jié)的內(nèi)容,蝸牛就講到這里了,如果大家對(duì)此話題還意猶未盡,請(qǐng)大家說? 蝸牛SEO博客? 給蝸牛留言或者去找蝸牛一起來研究這個(gè)話題。希望本篇文章使大家對(duì)搜索引擎對(duì)內(nèi)容的收錄有進(jìn)一步的了解和認(rèn)識(shí)。
轉(zhuǎn)載請(qǐng)注明:?蝸牛SEO? ? 搜索引擎的爬行,抓取,索引與收錄