`

【转】如何设置robots.txt文件

    博客分类:
  • Web
阅读更多

      robots.txt是搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。
搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。

   robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。

    如果你希望搜索引擎收录你网站的全部网页,则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根本目录。
      上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。 注意,robots.txt的命名,都应该是小写
robots.txt文件的内容主要就是一个代码:Disallow:
注意,robots.txt文件中一定要包含一个Disallow:
如果都允许收录,你可以写一行Disallow:/search.html 这个文件(search.html)本来就不存在也没事。

格式如:
Disallow: /search.html
|Disallow: /index.php?
Disallow: /tempweb/

说明:
User-agent: * 星号说明,允许所有的搜索引擎来收录,包括百度、google、yahoo等。
Disallow: /search.html 说明不允许收录 /search.html 这个文件。
Disallow: /index.php? 说明不允许收录以index.php?为前缀的链接如:index.php?122.html、index.php?=12、index.php?/baidu等等
Disallow: /tempweb/ 说明不允许收录/tempweb/里的所有文件。但可以收录如:/tempwebtaim.html 的链接。


这里介绍的是常用的几个代码。
如果需要了解更多关于Disallow:的用法,请了解百度官方的介绍:http://www.baidu.com/search/robots.html

1、当你的网页已被收录,但想用robots.txt删除掉,一般需要1-2个月。
2、结合Google网站管理员工具,你可以马上删除被Google收录的网页。

 

参考文章:http://www.seoweb-sh.com/208.html

分享到:
评论

相关推荐

    robots.txt用法与写法

    Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;...

    robots.txt文件在线生成工具.zip

    robots.txt可以告诉搜索引擎您的网站哪些页面可以被收录,哪些页面不可以被收录,如果您不想让搜索引擎收录您网站的某些内容,请用robots.txt文件指定搜索引擎在您网站上的抓取范围。 此工具本人找了很久,源码...

    搜索引擎机器人文件robots.txt让你的网站得到更好的优化

    搜索引擎机器人文件,上传到你网站的根目录,并改文件名为robots.txt即可..让你的网站更好的优化

    如何写robots,robots.txt是一个纯文本文件

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录...

    一个经典的wordpress的robots.txt的写法

    一个经典的wordpress的robots.txt的写法 下载后直接复制就行了 略微调一下也行的 文件来自:www.52jiwai.com 分享时请注明来处!

    用来生成robotstxt文件的Vuepress插件

    用来生成robots.txt文件的Vuepress插件

    帝国CMS中robots.txt文件用法

    主要为大家介绍了帝国CMS中robots.txt文件用法,详细分析了robots协议的原理与使用技巧,并实例讲述了帝国CMS中robots.txt文件的使用方法,需要的朋友可以参考下

    robots.js:用于robots.txt的用于node.js的解析器

    robots.js —是node.js的文件的解析器。 安装 建议通过安装: $ npm install -g robots 用法 这是使用robots.js的示例: var robots = require ( 'robots' ) , parser = new robots . RobotsParser ( ) ; parser...

    robots.txt:robots.txt即服务。 抓取robots.txt文件,下载并解析它们以通过API检查规则

    :robot: robots.txt即服务 :robot: :construction: 开发中的项目 通过API访问权限的分布式robots.txt解析器和规则检查器。 如果您正在使用分布式Web爬网程序,并且想要礼貌行事,那么您会发现此项目非常有用。 另外...

    robots.txt详细介绍

    robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。 robots.txt基本介绍 robots.txt是一个纯文本文件,在这个文件中网站管理者可以...

    robotstxt-webpack-plugin:一个Webpack插件,用于生成robots.txt文件

    robotstxt-webpack-plugin 使用webpack生成robots.txt 。 为什么您需要 ? 用于软件包的Webpack插件。入门首先,您需要安装robotstxt-webpack-plugin : npm install --save-dev robotstxt-webpack-plugin webpack....

    RobotsRider:浏览robots.txt文件并访问不允许的条目,记录结果并显示多汁的URL

    从“ robots.txt”文件中推导出CMS:如果可用,将浏览该文件,并且该文件上的“ Disallowed”条目将为我们提供足够的信息,以推断此处安装了CMS。 第二步(2)是浏览robots.txt不允许的条目,

    robots:在Go中解析robots.txt文件

    机器人该软件包以Go编程语言为Robots Exclusion Protocol提供了robots.txt解析器。 该实现遵循。 该代码简单明了。 此程序包公开的结构仅包含基本数据类型,因此可以使用Go的encoding程序包之一轻松对其进行编码和...

    在线生成Robots.txt 的Js脚本

    内容索引:脚本资源,Ajax/JavaScript,Robots 在线生成Robots.txt 的Js脚本,能帮助新手快速正确的建立 网站的Robots.txt文件,建立一个支持Google(谷歌) 、 Baidu(百度) baiduspider 、 Sogou(搜狗) sogou spider 、...

    wordpress robots.txt优化你的博客

    WordPress博客的robots.txt文件写法得根据自身网站情况来定,当然我们可以借鉴一些知名网站的robots.txt写法,比如可以看wordpress教程网的robots.txt,可以通过访问:http://www.shouce.ren/robots.txt 获取 ...

    robots.io:Robots.txt 解析库

    Robots.io 是一个 Java 库,旨在简化网站“robots.txt”文件的解析。 如何使用 类提供了使用 robots.io 的所有功能。 例子 连接 要使用 User-Agent 字符串“test”解析 Google 的 robots.txt: RobotsParser ...

    machina-policy:用于robots.txt文件的通用Lisp解析器

    为了方便地查询robots.txt文件以获取有关是否允许特定漫游器访问特定URL的信息。 因此,它的范围比略小:它仅处理robots.txt文件。 特征 machina-policy支持robots.txt文件的以下基本元素: 允许:行 禁止:行 ...

    WP-Robots-Txt:向隐私设置页面添加一个选项,允许您编辑“robots.txt”文件的内容

    WP 机器人 txt 这是一个单一服务插件,它在阅读设置 WordPress 管理页面上添加一个字段,允许您编辑robots.txt文件内容。限制如果您的服务器上有robots.txt文件,则此插件将不起作用。 WordPress 在默认情况下建议的...

    一个遵守 robots.txt 规则的爬虫

    编写一个遵守 robots.txt 规则的数据爬虫程序涉及到多个步骤,包括请求网页、解析 robots.txt 文件、扫描网页内容、存储数据以及处理异常。由于编程语言众多,且每种语言编写爬虫程序的方式可能有所不同,程序使用 ...

    Robots.txt-Parser-Class:robots.txt解析的Php类

    " t1gor/robots-txt-parser " : " dev-master " } } 然后使用composer加载lib: <?php require 'vendor/autoload.php' ; $ parser = new RobotsTxtParser ( file_get_contents ( '...

Global site tag (gtag.js) - Google Analytics