优化Google AdSense解决广告抓取工具中的错误信息

时间:2012-02-15来源:风信网 点击:

最近收到Google Adsense寄来的一封信,关于Adsense中抓取的过程中产生的错误问题,从而影响到AdSense广告相关性和精准度较低,产生的收益也较少。

我们注意到,我们的 AdSense 广告抓取工具 无法顺利抓取您www.ithov.com网站上的部分版块。具体来说,我们在上周的 4 天时间里检测到 3903 个失败的抓取请求,问题出自您的 robots.txt 文件。此文件阻止了 AdSense 广告抓取工具查看您网站上的部分版块。由于这个问题,您的AdSense 广告相关性和精准度较低,产生的收益也较少。

抓取工具的中的错误信息截图如下:

分析原因:

网站的 robots.txt 文件就像是网站的门卫 - 它决定着哪些网络抓取工具、网络漫游器和搜索引擎可以访问您的网站,哪些不能。获得了访问权限的网络抓取工具、网络漫游器和搜索引擎可以执行一系列的操作,比如查看您的网页和将您的网站编入索引。没有权限的就无法查看网站的特定部分或将其编入索引,具体取决于您如何指定。

AdSense 广告的投放依赖于 AdSense 网络抓取工具。该抓取工具会扫描网页的内容,并根据具体的关键字确定投放哪些广告。如果 AdSense 抓取工具被您的 robots.txt 文件所屏蔽,我们就很难在您的网站上投放具有相关性的广告。在这种情况下,用户看到的可能是不太相关的广告,点击率会随之降低。

robots小知识:

User-agent: 该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的Disallow和Allow行的限制。   

Disallow: 该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

robots.txt文件是按顺序执行的,所以代码添加的顺序可能会导致出现不一样的效果。
 
比如:
User-agent: Mediapartners-Google*
Disallow:
User-agent: *
Disallow: /

这样是可以允许AdSense的爬虫访问的。
但是如果写法改成:

User-agent: *
Disallow: /
 
User-agent: Mediapartners-Google*
Disallow:

那么就是任何爬虫都不能访问,所以需要注意顺序。

解决方案:

幸运的是,您可以立即修改 robots.txt文件, 允许 AdSense 广告抓取工具查看您的网站,从而立即修复此问题。为此,请找到您的 robots.txt 文件(路径为 www.ithov.com/robots.txt),并在其顶部添加如下两行内容:

User-agent: Mediapartners-Google
Disallow:

通过修复此问题,我们的抓取工具将可以在您网站上的更多网页中投放广告,并为您的用户提供更具相关性的广告,进而帮助您获得更高收入。

请注意,此更改不会影响您在 Google 搜索结果中的排名。添加上述两行内容到 robots.txt文件中,只会让已放置了 AdSense 代码的网页展示效果更好、更具相关性的广告。没有放置 AdSense 广告代码的网页不会受到影响。