Robots.txt Generator Online — Create SEO-Friendly Crawl Rules

Generate a robots.txt file for your website online. Control search engine crawling, block admin pages, allow important content. Free, no signup required.

什么是在线 Robots.txt 生成器?

Robots.txt 生成器是一种在线工具,用于为您的网站生成 robots.txt 文件。robots.txt 是一个简单的文本文件,放置在网站根目录,用于告知搜索引擎爬虫(如 Googlebot、Bingbot)哪些页面或目录可以抓取,哪些应该被排除。

DevKits 的 robots.txt 生成器提供可视化界面,无需手动编写语法规则,只需勾选选项即可生成符合标准的 robots.txt 文件,同时支持添加 sitemap 地址,帮助搜索引擎更高效地索引您的网站。

Robots.txt 文件简介

robots.txt 是 Robots 排除协议(Robots Exclusion Protocol)的标准组成部分,于 1994 年由 Martijn Koster 创建。虽然它不是法律约束,但所有主流搜索引擎都遵守这一协议。

位置: 必须放在网站根目录(如 https://example.com/robots.txt)
格式: 纯文本文件,UTF-8 编码
优先级: 爬虫访问网站时首先检查 robots.txt

Robots.txt 基本语法

User-agent(用户代理)

指定规则适用于哪个爬虫。常用值:

  • * — 适用于所有爬虫(通配符)
  • Googlebot — 仅适用于 Google 网页搜索爬虫
  • Bingbot — 仅适用于 Bing 爬虫
  • Baiduspider — 仅适用于百度爬虫

Disallow(禁止)

指定爬虫不应访问的路径。例如:

Disallow: /admin/        # 禁止访问后台目录
Disallow: /private/      # 禁止访问私有目录
Disallow: /tmp           # 禁止访问临时文件夹
Disallow:                # 空值表示允许抓取所有内容

Allow(允许)

在父目录被禁止的情况下,允许访问特定子页面。例如:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php  # 允许 AJAX 接口

Sitemap(站点地图)

指定 XML sitemap 的位置,帮助爬虫发现所有页面。例如:

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-news.xml  # 新闻专用 sitemap

Crawl-delay(抓取延迟)

建议爬虫在两次请求之间等待的秒数(Google 不遵守,但 Bing、Yandex 支持)。例如:

Crawl-delay: 10  # 每次请求间隔 10 秒

常见 Robots.txt 配置场景

1. 允许所有爬虫访问所有内容

User-agent: *
Disallow:

这是最开放的配置,适合纯展示型网站,希望所有内容都被索引。

2. 禁止所有爬虫访问整个网站

User-agent: *
Disallow: /

用于开发环境或私密网站,但不推荐用于生产环境——敏感数据应通过身份验证保护,而非 robots.txt。

3. 禁止访问后台和管理目录

User-agent: *
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /manager/
Disallow: /login/

这是最常见的配置,保护管理页面不被索引,避免安全风险。

4. 禁止访问特定文件类型

User-agent: *
Disallow: /*.pdf$
Disallow: /*.zip$
Disallow: /*.log$

防止搜索引擎索引大型下载文件,节省爬取预算。

5. 只允许特定爬虫访问

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

只允许 Google 索引,禁止其他所有爬虫。适合资源有限的小网站。

6. WordPress 推荐配置

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /search?
Sitemap: https://yoursite.com/sitemap.xml

保护 WordPress 后台和插件目录,同时允许必要的 AJAX 功能。

如何使用 Robots.txt 生成器

  1. 选择爬虫 — 从下拉菜单选择要配置的爬虫(或选择"所有爬虫")
  2. 添加规则 — 输入要禁止的路径,点击"添加"按钮
  3. 添加 Sitemap — 输入 sitemap.xml 的完整 URL(可选但推荐)
  4. 设置 Crawl-delay — 如需限制爬取频率,输入秒数(可选)
  5. 生成预览 — 实时查看生成的 robots.txt 内容
  6. 下载/复制 — 下载文件到本地,或复制内容手动上传到网站根目录

主要功能特性

  • 可视化编辑 — 无需记忆语法,点选即可生成规则
  • 多爬虫支持 — 可为不同爬虫设置独立规则
  • 通配符支持 — 支持 * 和 $ 等高级语法
  • Sitemap 集成 — 一键添加站点地图地址
  • 实时预览 — 即时查看生成的 robots.txt 内容
  • 语法验证 — 自动检测并提示语法错误
  • 常见模板 — 提供 WordPress、Shopify、Drupal 等常用模板
  • 免费无限制 — 无需注册账号,无使用次数限制

Robots.txt SEO 最佳实践

不要依赖 robots.txt 保护敏感数据

robots.txt 不是安全机制。任何知道 URL 的人都可以直接访问被禁止的页面。敏感数据应通过密码保护或身份验证来控制访问。

谨慎禁止 CSS/JS 文件

Google 需要访问 CSS 和 JavaScript 文件来正确渲染页面。禁止这些资源可能导致排名下降。

定期审查和更新

网站结构变更后,及时更新 robots.txt,确保爬取规则与当前架构匹配。

使用 Google Search Console 测试

Google 提供 robots.txt 测试工具,可验证规则是否按预期工作。

监控爬虫行为

通过服务器日志分析实际爬虫行为,确保它们遵守您的 robots.txt 规则。

常见问题解答

这个工具完全免费吗?

是的,DevKits 的 robots.txt 生成器完全免费,生成的文件可用于商业用途。

我的数据安全吗?

绝对安全。所有处理都在浏览器本地完成,您输入的网站信息不会传输到任何服务器。

支持哪些浏览器?

支持所有现代浏览器:Chrome、Firefox、Safari、Edge(桌面版和移动版)。

Robots.txt 会影响 SEO 吗?

正确配置 robots.txt 有助于 SEO,引导爬虫优先抓取重要页面。错误配置可能导致重要内容不被索引,影响排名。

如何上传 robots.txt 到网站?

使用 FTP 客户端(如 FileZilla)或主机控制面板的文件管理器,将 robots.txt 上传到网站根目录(通常是 public_html 或 www)。

如何验证 robots.txt 是否生效?

在浏览器中访问 https://yourdomain.com/robots.txt,确认文件内容正确。使用 Google Search Console 的 robots.txt 测试器验证规则。

robots.txt 和 sitemap.xml 有什么区别?

robots.txt 告诉爬虫不要去哪里,sitemap.xml 告诉爬虫应该去哪里。两者配合使用效果最佳。

立即生成您的 Robots.txt 文件

免费在线生成,SEO 友好,支持多爬虫规则

打开 DevKits →

相关工具推荐

推荐托管服务