使用站点地图经常遇到的一些问题

如何在站点地图中表示网址?

使用哪种字符编码方法生成Sitemap文件是否重要?

我如何指定时间?

如何计算lastmod日期?

我在哪里放置我的Sitemap?

我的Sitemap有多大?

我的网站有数千万个网址; 我能以某种方式只提交最近有变化的吗?

创建站点地图后我该怎么办?

是否需要完全指定Sitemap中的网址?

我的网站包含“http”和“https”版本的网址。我需要列出两者吗?

我网站上的网址中包含会话ID。我需要删除它们吗?

站点地图中URL的位置是否会影响其使用?

我网站上的一些页面使用框架。我应该包含框架集URL还是框架内容的URL?

我可以压缩我的站点地图,还是必须进行gzip压缩?

XML Sitemap中的“优先级”提示会改变搜索结果中我的网页的排名吗?

是否有XML模式可以验证我的XML Sitemap?

如果我有关于使用协议或提交Sitemap的其他问题怎么办?


问: 如何在站点地图中表示网址?

与所有XML文件一样,任何数据值(包括URL)都必须使用以下字符的 实体转义码:&符号(&),单引号(’),双引号(“),小于(<)和大于( >)。您还应该确保所有URL都遵循URI 的 RFC-3986 标准,IRI 的RFC-3987标准和XML标准。如果您使用脚本生成URL,通常可以将URL作为该脚本的一部分进行转义。您仍然需要实体转义它们。例如,以下python脚本实体转义http://www.example.com/view?widget=3&count>2

$ python
Python 2.2.2(#1,2003年2月24日,19:13:11)  
>>> import xml.sax.saxutils
>>> xml.sax.saxutils.escape(“http://www.example.com/view?widget=3&count>2”)

上面示例中生成的URL是:

http://www.example.com/view?widget=3&count>2

问: 使用哪种字符编码方法生成Sitemap文件是否重要?

是。您的Sitemap文件必须使用UTF-8编码。

问: 我如何指定时间?

对此协议中的lastmod时间戳和所有其他日期和时间 使用W3C日期时间编码。例如,2004-09-22T14:12:14 + 00:00。

此编码允许您省略ISO8601格式的时间部分; 例如,2004-09-22也是有效的。但是,如果您的网站经常更改,建议您添加时间部分,以便抓取工具拥有有关您网站的更完整信息。

问: 如何计算lastmod日期?

对于静态文件,这是实际的文件更新日期。您可以使用UNIX date命令获取此日期:

$ date --iso-8601 = seconds -u -r /home/foo/www/bar.php
>> 2004-10-26T08:56:39 + 00:00

对于许多动态URL,您可以根据基础数据的更改时间或使用基于定期更新的某些近似值(如果适用)轻松计算lastmod日期。使用偶数日期或时间戳可以帮助抓取工具避免抓取未更改的网址。这将减少Web服务器的带宽和CPU要求。

问: 我在哪里放置我的Sitemap?

强烈建议您将站点地图放在HTML服务器的根目录中; 也就是说,将其放在http://example.com/sitemap.xml上。

在某些情况下,您可能希望为站点上的不同路径生成不同的站点地图 – 例如,如果组织中的安全权限划分了对不同目录的写入权限。

我们假设您有权上传http://example.com/path/sitemap.xml,您还有权在http://example.com/path/下报告元数据。

站点地图中列出的所有网址都必须与站点地图位于同一主机上。例如,如果站点地图位于http://www.example.com/sitemap.xml,则无法包含来自http://subdomain.example.com的网址。如果站点地图位于http://www.example.com/myfolder/sitemap.xml,则无法包含来自http://www.example.com的网址。

回到顶部

问: 我的Sitemap有多大?

站点地图不应超过50MB(52,428,800字节),并且最多可包含50,000个网址。这些限制有助于确保您的Web服务器不会因为服务非常大的文件而陷入困境。这意味着,如果您的网站包含超过50,000个网址或您的Sitemap大于50MB,则必须创建多个Sitemap文件并使用Sitemap索引文件。您应该使用Sitemap索引文件,即使您拥有一个小型网站,但计划增长超过50,000个URL或文件大小为50MB。Sitemap索引文件最多可包含50,000个Sitemap,且不得超过50MB(52,428,800字节)。您还可以使用gzip压缩Sitemaps。

问: 我的网站有数千万个网址; 我能以某种方式只提交最近有变化的吗?

您可以在少量站点地图中列出经常更改的网址,然后使用 站点地图索引文件中的lastmod标记来标识这些站点地图文件。然后,搜索引擎可以逐步抓取已更改的站点地图。

问: 创建站点地图后我该怎么办?

创建站点地图后, 让搜索引擎通过直接向他们提交,ping他们或将站点地图位置添加到robots.txt文件来了解相关信息。

问: 是否需要完全指定Sitemap中的网址?

是。您需要在URL中包含协议(例如,http)。如果您的Web服务器需要,还需要在URL中包含一个尾部斜杠。例如,http://www.example.com/是Sitemap的有效网址,而www.example.com则不是。

问: 我的网站包含“http”和“https”版本的网址。我需要列出两者吗?

不可以。请在站点地图中仅列出一个网址版本。包含多个版本的网址可能会导致您的网站抓取不完整。

问: 我网站上的网址中包含会话ID。我需要删除它们吗?

是。在网址中包含会话ID可能会导致网站抓取不完整和冗余。

问: 站点地图中URL的位置是否会影响其使用?

不可以。站点地图中URL的位置不太可能影响搜索引擎使用或看待它的方式。

问: 我网站上的一些页面使用框架。我应该包含框架集URL还是框架内容的URL?

请包含这两个网址。

问: 我可以压缩我的站点地图,还是必须进行gzip压缩?

请使用gzip压缩您的站点地图。请记住,无论是否压缩,您的Sitemap都不得超过50MB(52,428,800字节)。

问: XML Sitemap中的“优先级”提示会改变搜索结果中我的网页的排名吗?

站点地图中的“优先级”提示仅表示特定网址相对于您自己网站上其他网址的重要性,并不表示会对搜索结果中的网页排名产生任何影响。

问: 是否有XML模式可以验证我的XML Sitemap?

是。位于 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd的站点地图文件可以使用XML架构,站点地图索引文件的架构可从 http://www.sitemaps.org/schemas获取。 /sitemap/0.9/siteindex.xsd。您还可以阅读有关验证Sitemap的更多信息。

问: 如果我有关于使用协议或提交Sitemap的其他问题怎么办?

有关Sitemap的提交和使用的详细信息,请参阅每个搜索引擎提供的文档。

发表评论

邮箱地址不会被公开。 必填项已用*标注