如何修正尚未编入索引的网页?

2024-06-13 864 0

谷歌搜索社区经常有小伙伴提出这个问题,如何修正尚未编入索引的网页?因为很多人的网站或多或少都有一些这样的网页处于这样的一个状态。首先声明这个尚未编入索引的状态,不是谷歌的问题,也不是你网站技术层面的问题。已发现尚未编入索引或已抓取尚未编入索引意味着谷歌知道这个 URL,但还没有抓取或索引它。我们可以按照以下这个五步程序来诊断和解决这个问题。

谷歌索引状态
谷歌索引状态

1. 要求建立索引 

我们可以通过 Google Search Console(GSC)要求谷歌重新进行抓取索引。首先找到已发现尚未编入索引状态的网址。点击搜索图标进行网址检查,这个过程有时候会有一些卡顿,刷新多试几次就好了。

查询未索引的网址
查询未索引的网址
网址检查中
网址检查中

网址检查一般会出现对应网址的一些情况,是否被谷歌收录,上次抓取的时间是什么时候等等信息。我们可以点击测实际网址,这个时候谷歌会抓取当前这个网址的资源进行测试,看是否符合编入索引的要求。符合要求的话,我们可以直接点击请求编入索引,然后会出现已请求编入索引的弹窗提示。

2024112210550250
测试实际网址
测试实际网址
测试实际版本
测试实际版本
2024112211010932
2024112211013019

温馨提示:你可以提交的URL 是有限制的,虽然文档中没有说明,但你通常每天可以提交 1015 个URL

如何第一次提交不超过,可以多尝试几次,如果还是没成功请仔细检查自己的网址是否出现了问题,不过这个问题一般是谷歌的问题,等待一段时间即可。

已成功编入索引

2024112301050039

2. 检查抓取预算问题

抓取预算是指搜索引擎要在你的网站上抓取的资源的次数,如果可抓取 URL 超过你的抓取预算,可能会看到 已发现 尚未编入索引的警告。

据谷歌的 Gary Illyes 说,90% 的网站不需要担心这个问题。然而,尽管抓取预算的问题往往影响较大的网站,但具体的技术设置、问题和错误会容易导致较小的网站出现问题。

让我们来看看几件可能导致爬行预算问题的事,以及如何改善它们。

你是否从子域提供内容?

假设你的主网站在 example.com 上,但在一个子域上也有数字资产,像是 cdn.example.com。在这种情况下,子域可被视为你主网站的一部分,并在抓取预算中被归为一组

考虑从 CDN URL 提供另外的数字资产以解决该爬取预算的问题。 

你是否有不必要的重定向?

通常情况下,当我们决定从网站上删除一个页面时,我们会添加一个重定向到另一个相关页面。然而这并非是必要的,除非该页面有反向链接或流量,否则最好是删除或替换被删除页面的内部链接,并返回404。 

你有重复内容吗?

重复内容是指你在多个 URL 上有接近或完全相同的页面可供访问,举例来说:

  • 同样的页面可以在网站的 www 和非 www 版本,以及 HTTPS 和 HTTP 上访问。
  • 开发或暂存的案例。
  • 带有模板内容的空产品或类别页面。

解决重复内容问题的方式取决于你的情况。 

你有没有使用内部nofollow链接?

Nofollow 链接不会阻止页面被索引,然而,在内部使用它们会告诉搜索引擎这个页面并不重要。

如果该页面很重要,就用 followe 链接取代 nofollow 链接。 

你有孤岛页面吗?

如果谷歌发现你新页面的唯一途径是来自网站地图,而且它没有内部链接,谷歌可能会认为它不重要。 我们将在下面谈及内部链接时更详细地讨论该问题。

3. 检查内容质量问题

谷歌并不会对发现的所有内容进行索引,它会优先考虑高质量、独特和引人注目的内容。由于谷歌还没有抓取有此警告的网页,它不知道该内容是否是为低质量的。但是它可能根据已经抓取过的类似网页作为参考,这就是为什么它可能会 取消了 抓取的优先次序。

以下是谷歌不太可能索引的几类内容:

  • 机器翻译的内容 
  • 拼凑的内容 
  • 人工智能生成的内容 
  • 稀薄内容 

简而言之,如果你有单薄的内容,将其与其他单薄的内容合并,以创造出有用的内容,不然就是要删除它。否则就改进内容,如果所产生的内容不是为了自然搜索而做的,就不要索引它,这样搜索引擎可以优先抓取更重要的页面。 

4. 检查内容是否有内部链接

内部链接是指从你网站的一个页面到另一个页面的链接,谷歌通常会认为内部链接数量很少的页面 URL 是不重要的,可能不会对其进行索引。你可以用 ahrefs免费检查 URL 是否有内部链接如果是使用wordpress搭建的网站推荐使用rankmath或类似的seo插件可以直观看见页面内链和外链数量,使用ahrefs则按照以下方式操作:

  1. 用网站诊断
  2. 进入 页面分析 (Page Explorer) 
  3. 筛选 内容 下的 所有页面
  4. 添加一列 所有内链的数量 (No. of all inlinks) 
20240612182438100

如果你在设置项目时选择了反向链接和(或)网站地图作为 URL 来源,你也可以找到一些孤岛页面。只要进入链接报告,点击 问题 (Issue) 页签,并寻找 孤岛页面(没有内部链接链结至该页面)的错误。

202406121824362

专家提示

使用像网站诊断 (Site Audit)这样的抓取工具,可能无法找到网站上的所有的孤岛页面,这是因为孤岛网页没有内部链接可以抓取。你必须检查服务器日志以了解完整的情况.

你也可以使用 Ahrefs 来寻找两个现有页面之间的内部链接机会,以下是操作方法:

  1. 转到网站诊断内链建议 (link opportunities)报告
  2. 输入一个与你想添加内部链接的页面相关的关键词
  3. 选择 关键词 作为搜索模式

举例来说,假设 Ahrefs 写了一篇关于关键词研究的文章,输入 关键词研究 可以找到你的网站上提到该关键词的页面,并向你显示其背景。然后,你可以在相关的内文上下放入链接。 

2024061218244029

另外,当你发布一个新的页面时,你可以使用页面分析 (Page Explorer)在页面文本中进行搜索,以找到潜在的页面进行链接。

2024061218244030

然而,这些策略都不能取代一个内部链接有条理的良好网站结构,这是每一个网站都应该优先考虑的事情。减少你的抓取深度(减少页面层级,尽量在三层结构以内),并确保你所有的内部页面都从 HTML 网站地图中链接。

HTML 网站地图是一个 HTML 页面,它可以让用户更好地了解你的网站结构,并以更简单的方式进行导航。与 XML 网站地图不同的是,HTML 网站地图是为了被不同的系统解析而制作的。虽然它们有时被认为是过去的事情,但它们仍然是相关的

如果你有一个大的网站,你可能要考虑把它分割成一个合理的结构,我们不能在一个页面链接到数以万计的 URL,链接是一个关系网,每一个关系对应不同的主题。我们不能把两个毫无关系的两个页面链接起来,这是不合理的。

专家提示:确保你为内部链接使用适当的文字标签,而不是使用 onClick() 等 JavaScript函数来引导用户到另一个页面。如果你使用 Jamstack 或 JS 框架,检查它或它的库是如何处理内部链接的,它们需要被呈现为标签。 

5. 检查反向链接

反向链接是谷歌用来决定一个页面是否有价值和值得抓取的信号之一,如果你的网页没有或很少有高质量的反向链接,这可能是谷歌不优先抓取的原因之一。

获得更多的反向链接可能是所有清单中最难的,但它确实有很有意义的。一个有价值的链接可以帮助谷歌更好发现你的内容,并更快地将其编入索引。 

你可以通过ahrefs或者semrush免费查看你网站上的任何页面有多少反向链接。如果你想检查一个特定的页面,把它粘贴到 Ahrefs 的 网站分析(Site Explorer),然后检查 概览 (Overview)报告。

202406121824413

如果你想看看哪些页面有没有很多反向链接,在网站分析 (Site Explorer)中输入你的域名,并检查按反链数量排序 (Best by links)报告。 

2024061218165329

如果一个重要的页面很少或没有反向链接,可以考虑尝试建立更多的反向链接

谷歌中移除网址

有很多方法可以从谷歌中移除网址。但是没有一种方法是可以适合所有情况。使用哪个方法需要你去做判断。重要的是,使用错误的方法不仅会导致页面无法按预期从谷歌索引中删除,而且还会对SEO产生负面影响。为了快速确定哪种移除方法最适合你,我们制作了流程图。你可以更具自己的情况跳到本文的相关部分。

网址移除流程
素材来自ahrefs
2024112211215975

如何检查网址是否被索引

我通常看到SEO人员检查页面是否被编入索引的做法是使用 site: 方法在谷歌中搜索(例如 site:https://nxysj.top)。虽然 site: 搜索对于识别如果显示在搜索结果中可能有问题的网站页面时很有用。但是你需要注意,结果并不是绝对的。事实上它上不会告诉你页面是否是索引。它们可能显示的是谷歌已知的页面,但这并不意味着它们有资格在没有site:指令的情况下依然显示在常规搜索结果中。

举个例子,site: 搜索后的结果依然包括跳转页面以及制作过Caoonical标签的页面。同时,当你site搜索一个域名时,谷歌可能会显示的是另外一个域名的标题以及描述的结果。比如我们可以看下 moz.com这个站点(原来是seomoz.com)搜索任何指向 moz.com 的关键词时,展示的SERP结果都是 moz.com,但是当我们 site:seomoz.com 的时候,结果却像下方这样:

2024061218244317

这个之所以重要是因为,很多SEO会在这里误判,在谷歌当中移除原来的老域名链接。这会导致 PageRank 无法正常传递。我看过很多的案例,很多人误以为是因为操作失误导致 site:旧域名的时候依然有结果,所以开始“修复”这些问题。实际这些操作却在伤害网站。

检查网页是否索引的方法是查看 Google Search Console 中的覆盖率报告,或者是使用网址检查功能检测单一的页面。这些工具会告诉你页面是否被索引,同时还会提供额外的信息说明谷歌是如何处理这些页面的。如何你没有这个工具的话,那么也可以直接在谷歌当中搜索你页面的URL。

2024061218244126

在Ahrefs中,你可以在 “Top pages(热门页面)”报告中找到参与排名的页面。通常我们看到的都是参与自然关键词排名的页面结果,这就意味着这些页面很可能是索引的。这里需要注意的是,你需要查看最后我们发现这个页面的日期,在我们发现这个页面的时候它是索引状态,但是索引状态会跟随时间而变化。

2024061218244218

如果某一个特定的URL有问题,需要从索引中移除。你可以通过查看本文最开始流程图,找到最好的解决方法,并且查看下方对应的方法进行处理。

方法1: 删除内容

如果你删除了内容,并且服务器返回404(未找到)或410(丢失)的状态码,那么在谷歌再次抓取这个页面之后就会从索引中移除这些页面。在移除之前,页面依然可能会在搜索结果中展现出来。即使页面已经被删除,有可能缓存的页面依然会被临时的展示给用户。

你也许会想要其它的方法:

  • 我需要尽快移除网址.
  • 我希望保留链接权重.
  • 我需要页面对用户可见.

方法2: Noindex

使用 noindex meta robots 标签、或者是使用 x‑robots 头部请求可以告诉搜索引擎在索引中移除本页面。 meta robots标签适用于页面,x‑robots适用于页面以及其它格式的资源(比如:pdf)。因为这些标签需要被搜索引擎发现——所以不要用robots.txt进行屏蔽。同时需要注意,将这些页面移除索引可能会导致链接无法传递权重。

Noindex meta robots 标签示例:

<meta name="robots" content="noindex">

X‑robots noindex 头部求情示例:

HTTP/1.1 200 OK X-Robots-Tag: noindex

你也许会需要其它的一些解决方法:

  • 我不希望用户访问这个页面.
  • 我需要保留链接权重.

方法3: 访问限制

如果你希望页面只能被特定用户访问,而不被搜索引擎发现,那么你可以使用下面三种方式中的一种:

  1. 设置特殊的登录访问系统;
  2. HTTP认证
  3. IP 白名单 (只允许特定IP访问页面)

这种设置方法非常适合内网环境、会员限定内容、暂存内容、测试站点、或者是正在开发中的站点。它只会允许除搜索引擎以外的特定用户访问,这样搜索引擎就不会索引这些页面。

你可能需要其它的方法:

  • 我需要尽快移除网址.

方法4: URL移除工具

这个工具的名称可能会让你误解它的工作原理。这个工具只会临时的隐藏特定内容。谷歌依然会发现并抓取内哦让那个,但是页面不会展示给用户。在谷歌中会持续6个月的时间,而在Bing中也有相同的功能,但是时间只会持续3个月。这个工具建议在极为特殊的情况下使用。比如安全问题、信息泄露、个人身份信息(PII)等等。针对谷歌你可以使用移除工具,对于Bing可以看如何屏蔽URL

如果你希望在更长时间内的移除这个内容,那么除了使用移除工具之外你还要配合使用其它的方法(noindex或者删除内容)。又或者是阻止拥有链接的用户继续访问内容(删除或访问限制)。这只是给你一个快速隐藏内容的方法,但是从索引中移除依然需要时间。这个过程可能最快也需要一天的时间。

方法5: 设置规范页面

当你的页面有很多个版本,而你需要将链接权重聚集到一个特定的页面上时,你需要做的就是设置规范页面。这个主要是用来防止重复内容的,同时它可以将多个版本页面的权重聚集到一个特定的索引页面上。

你有多个方法可以设置规范页面

  • 设置Canonical权威标签
  • 跳转
  • 处理URL参数

如何确认移除的优先级

如果你有多个页面要从谷歌索引中移除,那么应优考虑它们的优先级。

高优先级:这些页面通常与安全或与机密数据相关。这包括个人数据(PII)、客户数据或特有信息。

中优先级:通常涉及针对特定用户组的内容。比如公司内网、员工限定、会员限定、暂存、测试、或正在开发的站点。

低优先级:这些页面通常涉及重复内容。比如同一个页面拥有多个URL、带参数的URL、缓存页、测试页、或者是依然在开发中的页面。

需要避免的常见的移除问题

我想介绍几种我经常会看的到移除问题,以及每种问题会导致什么后果。以帮助大家了解为何移除不起作用。

在 robots.txt 中设置 Noindex

谷歌之前曾经支持过在 robots.txt 中设置Noindex。但是这并非官方的做法,同时现在也正式的取消支持这样的设置方法。许多之前这么设置的网站可能会伤害到自己。

在 robots.txt 设置了不抓取

抓取和索引是两个事情。即使设置不抓取该页面,谷歌依然可以通过外链或内链索引这个页面。即使谷歌没有抓取到页面内容,它依然会通过其它的一些信号(比如指向该页面的锚文本)来生成标题并展示在搜索结果中。

设置 Nofollow

通常人们会把这个和 noindex 混淆,因为经常有人在页面上使用 nofollow 并希望谷歌不索引这个页面。之前 Nofollow 是设置在页面上的链接中,用来阻止谷歌抓取被指向页面中的内容。但是现在情况变了。谷歌现在依然可以抓取这些页面。之前 Nofollow 还被用于限制页面与页面之间的权重传递。同样,现在也不行了。在过去,如果页面有其它的链接入口谷歌依然可以通过其它的入口发现该页面。

你可以在Ahrefs Site Audit(网站诊断)中的Page Explorer(页面分析)中使用筛选功能,查看被Nofollow的页面:

2024061218165147

一般我们不会给页面所有的链接都设置nofollow,所以这里应该检索不到结果,或者是只检索出很少的结果。如果有,我建议你检查这些结果,看看这些页面是否是需要设置为 Noindex、或者选择一个合适的方式处理、又或者是直接删除页面。

你还可以在Link Explorer(链接分析)中查看是否又单独被设置为 Nofollow 的链接:

20240612181652100

将设置了Noindex的页面Canonical到了另外一个URL

这两个设置是有冲突的。Noindex代表从索引中移除页面,而Canonical则告诉谷歌另外一个页面是原页面的权威页面。这个可能只有在谷歌忽视 Noindex 标记并把 Canonical 作为主要信号,权重传递才会生效。 但是这种情况不是绝对会发生的。这其中是一套算法,可能Noindex会被当成是一种信号,那么页面就无法进行权重整合。

你可以在Site Audit(网站诊断)中的 Page Explorer(页面分析)功能中找到那些 Noindex 并且Canonical标签指向不是自己的页面结果:

2024061218165539

设置Noindex之后等待谷歌抓取,然后设置了抓取屏蔽

通常这会发生在下面两种情况:

  1. 页面设置了屏蔽抓取但是已经被索引,于是设置了Noindex,同时打开了抓取,让谷歌抓取并看到Noindex设置后,再次屏蔽抓取。
  2. 针对需要移除的页面设置了Noindex标签,并且在谷歌抓取并处理后,屏蔽了抓取。

不管是哪一种情况,最终都是屏蔽了抓取。但是如果你还记,刚才我们就说过抓取不等于索引。即使这些页面被屏蔽了,但是依然会被索引。

总结

修正尚未编入索引的网页需要我们认清自己的网页,进行自我评估,主要以内容为王。

这篇文章对你有帮助吗?
[评价次数: 3 满意度: 5]

相关文章

网站url的优化小技巧,创建 SEO 友好的网址
ai聊天的实用技巧
30 种方法教你提升WordPress 网站加载速度
谷歌 SEO 排名因素汇总
gtranslate更改图标
2024年10月Google SEO新闻汇总与点评

发布评论