一般來(lái)說(shuō),網(wǎng)站或多或少都存在一些對(duì)排名沒(méi)意義甚至有害的頁(yè)面。對(duì)于站長(zhǎng)來(lái)說(shuō)是不希望被搜索引擎檢索的。而robots.txt文件則承擔(dān)了站長(zhǎng)這個(gè)意愿的表達(dá)功能。當(dāng)蜘蛛訪問(wèn)網(wǎng)站會(huì)優(yōu)先抓取robots.txt,遵循站長(zhǎng)配置的規(guī)則不再抓取不利于SEO的內(nèi)容。
robots.txt文件位置
robots文件往往放置于根目錄下
robots.txt文件格式
Disallow:該項(xiàng)的值用于描述不希望被訪問(wèn)的一組URL
Allow:該項(xiàng)的值用于描述希望被訪問(wèn)的一組URL
User-agent:該項(xiàng)的值用于描述搜索引擎robot的名字
例如:
User-Agent:YisouSpider // 配置YisouSpider
Disallow: / // 不允許YisouSpider抓取網(wǎng)站任何內(nèi)容
User-Agent:* // 配置所有搜索引擎
Allow: / // 允許抓取網(wǎng)站任何內(nèi)容
更多
Disallow: /abc //禁止抓取含abc目錄及子目錄的所有頁(yè)面
robots.txt通配符的使用
“*” 匹配0或多個(gè)任意字符
“$” 匹配行結(jié)束符。
舉例:
Disallow: /*?* //禁止抓取網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
Disallow: /*.htm$ // 禁止抓取所有以.htm為后綴的URL頁(yè)面 /abc.htm/index 不匹配
區(qū)別于Disallow: /*.htm // /abc.htm/index 也匹配
網(wǎng)站哪些內(nèi)容不建議被抓取
對(duì)于這個(gè)小白也懂的不多,一般取決于內(nèi)容是否利于SEO的原則。例如,我博客的搜索結(jié)果頁(yè),沒(méi)做好優(yōu)化的tags頁(yè)都禁止抓取了。而對(duì)于企業(yè)站來(lái)說(shuō),如果不打算可以優(yōu)化公司名稱的關(guān)鍵詞,關(guān)于、聯(lián)系、企業(yè)新聞等一些內(nèi)容都可以考慮禁止
還有一點(diǎn)值得注意的事,有很多站長(zhǎng)反饋說(shuō)百度不遵循robots.txt協(xié)議,抓取不該抓取的內(nèi)容。筆者也感覺(jué)不是很靠譜,所以也可以考慮在一些頁(yè)面設(shè)置meta name=”robots“
百度的解釋理解起來(lái)或許有所偏差,如果有不對(duì),大家可以指正、交流