让互联网技术普惠中小企业
成为中小企业信任并依赖的云服务伙

文章标题
文章摘要
文章内容
全文搜索

热门话题

什么是搜索引擎爬虫？

浏览数量： 4 作者：本站编辑发布时间： 2022-03-29 来源：本站

crawling被称为爬虫，是搜索引擎的抓取机器人，用来抓取新的内容，内容可以是网页、图像、视频、PDF 等各种形式，内容都是通过链接被发现的。

Googlebot（谷歌抓取机器人也就是爬虫）从获取几个网页开始，然后按照这些网页上的链接查找新的 URL。通过沿着这条链接路径跳跃，爬虫能够找到新内容并将内容添加到名为Caffeine（一个包含已发现 URL 的庞大数据库）的索引中，之后搜索者能够更快速的查找到 URL 上的内容。

一、爬虫：搜索引擎能找到你的网页吗？

正如上面所讲，想要网页出现在 SERP 中的先决条件是确保网站内容被抓取并编入索引。

倘若我们有一个网站，最好先查看在索引中有多少页面，这些在索引中的内容页面会影响 Google 最终抓取的页面结果。

检查索引页面的一种方法是前往谷歌搜索栏中输入“site:yourdomain.com”，这是一种高级搜索运算符，能够返回 Google 在其索引中指定站点的结果：

Google 显示的结果数量并不准确，但通过这些结果我们可以清楚地了解到我们的网站上哪些页面已经编入索引，以及这些网页在搜索结果中的显示方式。

要获得更准确的结果，我们可以先注册一个免费的Google Search Console 帐户，使用GSC工具监控实际有多少网站页面已经在 Google 的索引中，获取索引覆盖率报告

如果我们的网页没有出现在搜索结果中，可能有以下几个原因：

①　网站是全新的，尚未被抓取。

②　网站未链接到任何外部网站。

③　网站的导航使机器人很难有效地抓取它。

④　网站包含一些称为爬虫指令的基本代码，这些代码会阻止搜索引擎。

⑤　网站因垃圾邮件策略受到了 Google 的处罚。

二、指导搜索引擎抓取我们的网站

如果我们使用以上两种方式发现我们网站的一些重要页面从索引中丢失或一些不重要页面被错误地编入索引，我们可以利用一些优化措施指导 Googlebot 抓取我们的网络内容，提升网站的可抓取性，便于之后更好地控制索引中的内容。

1.查看Google可以使用 MOZ PRO 抓取哪些页面

大多数人都在考虑让 Google 可以找到网站的重要页面，但我们也不希望 Googlebot 抓取网站中的旧 URL、重复 URL、特殊促销代码页、和临时测试页面。

robots.txt可以引导 Googlebot 远离我们网站的这些页面。Robots.txt 文件位于网站的根目录（例如 yourdomain.com/robots.txt），特定的 robots.txt 指令决定着搜索引擎应该或不应该抓取哪部分内容，以及它们抓取网站的速度。

Googlebot 处理 robots.txt 文件的几种情况

①　如果 Googlebot 找不到某个网站的 robots.txt 文件，它会继续抓取该网站。

②　如果 Googlebot 发现某个网站的 robots.txt 文件，它通常会遵守建议并继续抓取该网站。

③　如果 Googlebot 在尝试访问网站的 robots.txt 文件时遇到错误并且无法确定该文件是否存在，它将不会抓取该网站。

但是并非所有网络机器人都遵循 robots.txt。一些不良行为者会利用 robots.txt 文件来查找我们的私人内容的位置。通过阻止爬虫访问诸如登录和管理页面等私人页面，这样私人信息内容就不会出现在索引中，

如果将这些 URL 的位置放在可公开访问的 robots.txt 文件中，很有可能会被抓取并公开，最好将私密的信息网页封闭在登录表单后面，而不是将它们放在我们的 robots.txt 文件中被抓取。

2.在 GSC 中定义 URL 参数

一些电子商务网站会在 URL 上添加某些参数，让相同的内容可以在多个不同的 URL 上使用。例如，在网上购物时，我们可能已经通过过滤器缩小了搜索范围。当我们搜索“鞋子”，可以按尺码、颜色和款式细化我们的搜索，每次细分的优化，URL 都会有所变化。

Google怎么知道向搜索者提供哪个版本的 URL更好呢？Google 在自己确定代表 URL 方面做得很好，我们也可以使用 Google Search Console（GSC）中的 URL 参数功能告诉 Google 我们希望它如何处理我们的页面。

如果我们使用GSC中的 URL 参数功能告诉 Googlebot“不要抓取带有____参数的 URL”，搜索结果中这些页面的信息就不会展示。

三、爬虫能找到你所有的重要内容吗？

以上是如何让搜索引擎抓取工具远离网站中非重要内容的策略，接下来，让我们了解哪些优化策略可以让 Googlebot 找到我们的重要页面。

有时，搜索引擎将会抓取我们网站的某些页面信息，但其他页面信息可能由于某些原因会被遮挡，无法抓取。因此，确保搜索引擎能够发现所有我们想要被索引的内容是很重要的一点。

1.网站内容是否隐藏在登录表单后面？

如果网站要求用户在访问某些内容之前需要登录、填写表格或回答问题，搜索引擎将不会看到这些受保护的页面，爬虫也不会登录这些页面。

2.网站是否依赖搜索表单？

有些人认为，如果他们在他们的网站上放置一个搜索框，搜索引擎将能够找到访问者搜索的所有内容。但事实是，Googlebot不能使用搜索表单。

3.文本是否隐藏在非文本内容中？

避免使用非文本媒体形式（图像、视频、GIF 等）来显示我们希望被索引的文本。虽然搜索引擎在识别图像方面做得越来越好，但搜索引擎并不能理解所有图片，所以最好在网页的 <HTML> 标记中添加文本。

4.搜索引擎可以跟随网站导航吗？

正如爬虫需要通过来自其他网站的链接来发现我们的网站一样，它也需要我们网站上的链接来引导它从转到另一个页面。

如果我们希望搜索引擎找到某个页面，但任何其他页面都没有与这个页面建立链接，这个页面也很难被发现。

许多网站构建的导航搜索引擎都无法访问，这样会阻碍了网站在搜索结果中的展现能力。

5.常见的导航错误可能会阻止爬虫查看我们的所有网站：

①　拥有与桌面导航显示不同的移动导航

②　菜单项不在 HTML 中的任何类型的导航，例如启用 JavaScript 的导航。谷歌在抓取和理解 Javascript 方面做得更好，但它仍然不是一个完美的过程。将其放入 HTML 中是内容被 Google 找到、理解和索引的更可靠的方法。

③　个性化，向特定类型的访问者显示独特的导航。

④　忘记通过导航链接到我们网站上的主页，链接是爬虫跟踪到新页面的路径。

因此，我们的网站必须具有清晰的导航和有用的 URL 文件夹结构。

6.信息架构干净的吗？

信息架构是为了提高提高用户效率和可查找性，对网站上内容进行组织和标记。直观的信息架构最有效，因为用户不必费力思考就可以浏览我们的网站或查找所需内容。

7.你在使用站点地图吗？

站点地图就是它听起来的样子：我们网站的 URL 列表，爬虫可以使用这些 URL 来发现和索引我们的内容。创建一个符合 Google 标准的文件并通过 Google Search Console 提交，是Google 找到网站优质内容页面的最简单方法之一。

虽然提交站点地图并不能取代页面导航，但它肯定可以帮助爬虫找到通往所有重要页面的路径。

即使我们的站点没有任何其他站点链接到它，我们仍然可以在 Google Search Console 中提交我们的 XML 站点地图，虽然不能保证在索引中包含所有提交的 URL，但被索引的机会会更大。

四、爬虫在访问我们的 URL 时是否会出错？

在抓取我们网站上的 URL 的过程中，抓取工具可能会遇到错误。遇到这种情况可以转到 Google Search Console 的“抓取错误”报告来检测可能发生这种情况的 URL ，此报告将提示我们是服务器错误或是未找到的错误。

在我们看到抓取错误报告之前，了解服务器错误和“未找到”错误非常重要。

4xx 代码：客户端错误而无法访问网页

4xx 错误是客户端错误，这意味着请求的 URL 包含错误的语法或无法实现。最常见的 4xx 错误之一是“404 – Not Found”错误。这可能是由于 URL 拼写错误、页面被删除或重定向损坏。

5xx 代码：服务器错误而无法访问网页

5xx 错误是服务器错误，表示网页所在的服务器未能满足搜索者或搜索引擎访问该页面的请求。在 Google Search Console 的“抓取错误”报告中，有一个专门针对这些错误的选项卡，通常是因为对 URL 的请求超时，因此 Googlebot 放弃了该请求。

但是，有一种方法可以告诉搜索者和搜索引擎我们的页面已移动 - 301（永久）重定向。

301 状态代码意味着页面已永久移动到新位置，因此请避免将 URL 重定向到不相关的页面。如果一个页面正在针对某个关键词进行排名，而我们将其 301 转到与搜索结果不相关的 URL，网页的排名位置可能会下降。

我们还可以选择 302 重定向页面，302 有点像绕道而行。暂时通过特定路线吸引流量，但不可以永远这样。

经过多次重定向的Googlebot可能很难到达我们的页面。谷歌可能会对这些“重定向链”采取限制，因此，网站需要尽可能的减少重定向次数。

以上就是针对网站的可抓取性的优化策略，可以有效提升网站内优质内容的被索引率。