robots.txt文件该文件告诉搜索引擎爬虫哪些页面或文件可以从您的网站请求,哪些页面或文件不能请求。该文件是大多数 优秀爬虫 都robots.txt认可的网络标准文件。在从特定域请求任何内容之前先进行消费。
为了保护网站特定区域(如CMS、管理后台、用户账户等)不被抓取,这些文件必须位于每个主机的根目录,您可以将根/robots.txt路径重定向到目标 URL。
控制爬取权限:通过指令告诉爬虫哪些页面或目录可以访问(Allow),哪些不允许(Disallow)。例如,可以阻止爬虫访问敏感区域如管理员后台或临时页面,以减少服务器负载或保护隐私。
- 指定爬取规则:常用指令包括:
- User-agent: *:针对所有爬虫。
- Disallow: /private/:禁止爬取 /private/ 目录下的内容。
- Allow: /public/:允许爬取 /public/ 目录。
- Sitemap: https://example.com/sitemap.xml:可选地指向 XML 站点地图的位置。
- 注意事项:
- 它不是强制性的安全措施,仅对遵守协议的爬虫有效。恶意爬虫可能忽略它。
- 如果文件不存在或格式错误,爬虫通常会默认爬取整个网站。
- 常用于 SEO(搜索引擎优化),帮助网站更好地被搜索引擎收录。
这是一个标准化的协议,由 W3C 和搜索引擎公司(如 Google)推广,使用简单文本编辑器即可创建。
XML站点地图
XML 站点地图是一个以 XML 格式编写的文件,通常名为 sitemap.xml,放置在网站根目录下(例如,https://example.com/sitemap.xml )。它是网站管理员向搜索引擎提供网站结构和页面列表的工具,帮助爬虫更高效地发现和索引内容。主要作用包括:
- 列出网站页面:包含网站所有重要页面的 URL、最后修改日期、更新频率(changefreq,如 daily、weekly)和优先级(priority,0.0 到 1.0,表示相对重要性)。
示例结构(简化版):


