不同层次的SEO都怎么做,兼答百度知道网友

不知道题主的既往SEO经验,仅谈谈个人从事SEO的相关经验,仅供参考,欢迎交流:

SEO基本要求
修改下Title, Description, 起码你的网页标题要包含你所想得到排名的关键词。
分类合理,网站页面结构扁平(也就是目录层级尽可能的少),清晰。
站在用户的角度来说,就是用户能轻易的找到所需要的内容,网站易用性好,优质内容能及时呈现。

进阶SEO做法:
网站内容相互关联好吗?有相关内容推荐吗?是否可以更好的改善内链?是否有同类型的较优秀的站点可以给你连接?
有没有可能搜集尽可能多的行业相关的关键词,去创造或者获取尽可能多的内容,从而形成对用户需求的广泛覆盖,即使是低频的长尾词,也能有足够的内容去覆盖。
内容多了,是不是可以聚合相关内容,实现内容多样性,有效性,实现内容增益?
通过日志分析,找到当前网站存在的问题,和可以改善的点,比如服务器的稳定性,比如搜索引擎抓取内容时更加快速、方便。

高阶SEO做法:

同理心,和用户换位思考,多站在普通用户的角度去考虑问题。
用户在不同的使用场景下,会遇到什么样的问题?
用户的痛点是什么?你能提供什么独特的价值给用户?
考虑一下客户的需求在哪里,客户都对哪些内容感兴趣?
在同类型网站很多的情况下,你提供的信息或内容怎么比别人提供的更有价值,即内容增益?
站在行业生态的角度去考虑问题,你想通过什么样的途径去触达你的客户

内容敲定了,再谈谈用户体验

网站服务器快吗? 网页加载速度快吗?用户体验好吗?站内导航,如面包屑齐全吗?
网页设计符合用户的审美吗?页面内容字号、字体是否设置合理,可读性高吗?
网站有太多的广告吗?是否到处是闪动的广告,用户分不清哪里是广告,哪里是内容呢?
用户看了觉得爽,你提供快捷的方式让用户分享了吗?

你有没有为你的用户提供基于移动场景下的 HTML 5 移动版网站?
你的网站提供移动版了吗?有没有快速的入口提供给用户,方便用户多屏阅读、使用;如扫个二维码,到手机或者平板上去看、玩。

内容建设好了,那收录得如何?有没有读读百度站长学院的文档,有没有按照要求推送你的内容给百度,方便索引?
有可能让用户自发帮你宣传,变成你站点的自来水吗?

有没有可能引导用户互动,引导UGC内容的创造?

如何将站点的资源优势实现业务互补?
有没有可能输出优质内容给其他网站,打造网站品牌,形成行业影响力?

优质内容传播途径创新

优质内容是否跟着用户经常使用的场景而产生变化呢?

微信上聚集了大量的用户,你的内容有没有通过微信公众号的形式分享出去,或者引起用户的共鸣,从而触动用户主动的传播呢?
今日头条、搜狐自媒体、微博等各大自媒体渠道上是否可以再次传播,形成内容的多重场景触达用户呢?

90,00后的年轻用户群体偏爱QQ,QQ空间,我们也应该想办法覆盖到,尤其是当网站用户群定位为年轻,时尚的群体时。

SEO工作的目的与价值
最后,任何网站的SEO工作,都是为了达成一定的目的而做的,我们应该让SEO工作更好的服务业务目标,帮助业务实现更好的发展。此为重中之重,亦为SEO工作价值之所在。

以上仅为个人思考,欢迎补充

SEO引爆点-大型网站的SEO策略-王通

网站越大,SEO服务做起来就轻松,因为大型网站都有很好的执行团队,你只需要找准他们网站的SEO爆破点,就能够迅速获得非常理想的SEO效果。本文将结合我最近两年的几个经典案例:腾讯拍拍、金山爱词霸、中青旅英文站给大家分享一下如何寻找大型网站的SEO引爆点。

案例之一:中青旅英文站的SEO引爆点

中青旅英文站是一个针对国外客户的旅游服务网站,它的所有竞争对手在做SEO的时候,都在竞争“china tour”和“china travel”这两个词,其实就算把这两个词排到第一名,每天带来的留来那个也是非常少的。因为在帮中青旅做之前,我已经帮助三家旅游公司的入境游网站做过SEO,这三家公司其中两家都是上市公司,他们找我做的时候很简单,就要排china tour这个词,这三家网站在和我合作的期间,我都把他们这个词排到了第一页,但是通过后来的流量统计可以看到,带来的流量很少。而通过专业的关键词分析工具分析可以发现,使用china tour这个词查询的老外很少,而使用china tours的人要比china tour的多好多倍,但是搜索频率依然不是很高。

从2005年后,我再给一些网站做SEO的时候,第一个要给他们灌输的概念是:
不要为了排名而做SEO,而是要为了赚钱来做SEO,想赚钱,必须获得更多的客户,想获得更多的客户,必须搞大量的流量,想搞大量的流量,必须SEO大量的关键词。

如果给中青旅做SEO,依然按照上面的普通SEO套路,那么中青旅给我的几十万会非常不划算,而我自己也不好意思去收的。所以王通要做的,是让他们有一个翻天覆地的大改变和一个飞速的增长,要达到这个效果,我就必须找到这个爆破点。

这个爆破点如何找呢?
当然是要从关键词分析来开始,于是我对他们网站可能要覆盖的关键词做了一个整理分析:

第一类:热门词

例如china tours 、travel to china、china
hotel等等热门词,这类词虽然热门,但是日检索量有限,同时竞争非常的厉害,所以不是考虑的重点。

第二类:旅游景点

例如 长城的英文写法,great wall of china这个词每天搜索量上万次。甚至每天搜索长城有多长的老外也有几百人。所以把所有的景点都当做关键词,也是一个不小的量。

第三类:地名+travel

例如:travel to beijing 、travel to shanghai … … 这样立刻产生的了几千个关键词

第四类:地名+hotels

例如:beijing hotels、guangzhou hotels… … 这类词有几百个关键词出现了

第五类:cheap + 地名+Flights

例如:cheap beijing flights、cheap shanghai flights 这样几百个关键词又有了

第六类:这是真正的爆破点, “城市名 to 城市名 cheap flights”

这个量有多大呢?保守一点来计算,500个城市组合,就是25万个关键词。
这个策略制定之后,然后就是来设计这些关键词网页的模版,在模版中直接把关键词布局和内部链接构架设计好,接着用程序搞定web界面,几十万关键词网页就建好了。有了这几十万个关键词网页,不费吹灰之力,三个月后,中青旅英文站流量增长了15倍。

案例二、金山爱词霸网站的SEO引爆点

爱词霸是金山软件的一个在线服务平台,他们最初找我是因为搜索金山词霸,在线翻译等等他们的产品词和基础词都无法排在前面,对于这些词而言,非常简单,很快可以迅速提升到前三名,但是这些词带来的流量一天也不过几万IP。在分析了金山爱词霸的特点之后,我们挖掘出了这个网站的一个SEO引爆点,迅速使其每天通过SEO带来的流量到达了每天40万IP。

这个引爆点是什么呢?

金山爱词霸是一个查词工具网站,在分析这个工具的时候,我发现,他们有一个海量的内容被隐藏在查询按钮之后,用户可以看到,但是搜索引擎无法看到。

例如,用户每次查询一个英文单词,都会自动产生一个新的网页,但是这个网页由于在其他网页上没有很直接的超链接,所以用户可以看到,搜索引擎看不到。于是,我们就锁定了这个SEO引爆点。

1、每一个英文单词,都是一个关键词
2、每一个英文词组,也都是一个关键词

这个量有多大呢?
几百万个

找到了这个SEO引爆点之后,一切都很简单了,接下来,我们设计了一个SEO策略,促使各大搜索引擎都能够快速索引到隐藏在查询按钮后的这些查询结果网页。于是,这类网页很快就被各大搜索引擎索引了几百万个。用户只要在各大搜索引擎中查询某一个单词的翻译,基本都在前几名。虽然每个词每天被查询的几率非常低,但是综合起来的量确实巨大的。最高时候,每天通过搜索引擎带来的高达40万IP.

案例之三:腾讯拍拍网

我们过去的合作案例中,增长的最高的当属腾讯拍拍网,拍拍网事仅次于淘宝的C2C电子商务网站,它是一个已经拥有海量信息和海量关键词的网站,所以它根本不需要从关键词上引爆,所以先是详细的网站诊断分析之后,由于网站比较多,仅仅诊断分析报告就写了40页厚,最后我们终于发现了他的引爆点,然后通过一个内部链接优化策略,迅速使其SEO效果进行引爆,SEO一年之后,使其通过SEO带来的流量增长了10倍之高,具体的量是非常巨大的,由于涉及机密,这里就不公开详细谈了,这些流量如果是花钱在搜索引擎按照竞价的价格购买的话,一年要花上亿元。

如何挖掘一个网站的SEO引爆点呢?

要记住以下原则:
1、SEO只是网站推广方法中的一种
2、网站推广只是网络营销工作的一部分
3、网络营销只是网站运营工作的一部分
4、网站运营的目的是为了网站盈利,而不是搞形式。

在这个大逻辑之下,在寻找网站的SEO突破点的时候,一定要结合网站运营策略、网络营销策略、其他网站推广方法。例如针对某一个B2B网站做SEO的时候,我们重点的引爆点就是放到了他们对会员的培训让,促使每一个会员都主动和其他网站交换链接,使其在短短时间内,获得了非常多的反向链接。SEO效果也是火箭速度的快升。

那么,发觉一个大型网站的SEO引爆点都从哪些方面入手呢?
1、关键词策略
2、网站内容策略;
3、链接构架策略;
4、关键词布局策略;
5、反向链接建设策略;
6、站内搜索引擎优化策略……

对于大型网站的SEO而言,技术从来都不是问题,真正的问题是 SEO策略问题,所以优化一个大型网站的时候,一定要分析透这个网站的特点,挖掘出它的SEO潜力所在,然后采用适当的SEO策略,也许不需要太大的工作量,就可以取得非常惊人的SEO效果。
本文版权归通王科技所有,欢迎各类网站转载,转载请注明作者和出处。谢谢!
作者:王通
首发:网络营销策划网

Matt Cutts 和Eric Enge谈站点质量问题

matt cutts

matt cutts

Matt Cutts 老师不多说,Eric Enge是新近被翻译的一本《The art of seo》的联合撰写人。其博客http://www.stonetemple.com/因历史性地采访过业内关键人物在Oline marketing界也属于标杆性在线刊物,艾瑞克老师还创办了Stone Temple Consulting机构。更多查看about eric enge。最令人诧异的是其在Foosbal界取得的惊人成就。

Eric Enge:我想和你讨论一个例子,这个例子经常在我的SEO演讲中提起。来源于用户搜索“青蛙”一词,搜索引擎给出的第一个结果看起来就不赖,于是用户点击,然后用户得到的文章大意如下的结果:

frog-site-1

蛋四,用户没有找到他们要的信息,于是返回到搜索引擎点击第二个结果,文章大意如下:

frog-site-2

这个页面和第一个结果并不重复,但提供的信息是一样的。鱼丝,用户返回搜索引擎点击第三个结果得到另一个不重复的页面,但还是没得到他们要的结果。这时,用户怒了,说明用户要找的信息不是青蛙吃什么,他们没有找到要找的信息。

我举这个例子的意思是,我想想客户展示内容不重复是不够的,期望得到排名要做的更多。

Matt Cutts:完全正确。那些站点没有带来额外的价值。即使是不重复也没有带来任何新东西,这种内容没有什么错但是这种内容也不用期望得到多好的排名。google旨在于发现这种内容之间没有什么不同然后只显示这些结果的一种。因此我们能提供给用户不同种类的站点在另外一些搜索结果中。

Eric Enge:当然,唯一可能使这些网站变得稍显不同的就是是否加入了Jane(个人)关于青蛙的观点。

Matt Cutts:也许会变得不同,但还是不够。没有冒犯Jane的意思,但是如果Jane作为一个没有任何相关背景、经验的人只是关于这个话题胡诌了500字,一个搜索者也不会对她的观点有兴趣。以电影为例,很多人在乎Roger Ebert的观点,这就是大众兴趣关注于何处的例子。

Eric Enge:我也看到了大量电商网站和聚合网站出局了,他们怎么了?

Matt Cutts:同样的原因。我们要问问这些网站到底为信息附加了什么价值?不是说这些网站不能创造价值,但是它们需要为自己找出独特之处。

Eric Enge:圈儿里有很多讨论说google喜欢品牌,有些人甚至认为google是为了广告业务着想。

Matt Cutts:首先,我要强调,一个人是否为广告客户并不在搜索排名中加分。google旨在于镜像真实世界,我们尝试反映出现实世界中重要的事情在WEB世界同样重要。品牌有时候作为一种指针指引人们发现价值,但这不是让人发现价值的唯一途径。有更多的指针是重要的并且值得在搜索结果中表现出来。

品牌可能潜在地有作用,但它不是唯一的解释世界的视角。过去我们曾使用过大量的有用signals帮助用户找到有价值内容,根本不考虑其是不是一个广告客户。

互联网伟大之一就是仍然在提供新业务崭露头角的机会,以此累积一个公司的在线声誉。他们仍然可以成功,即使对手握有大量的广告预算。

Eric Enge:回到话题开始的地方,google有令人信服的技术提供多样化的内容,懂得这点就能为新的在线业务提供一个门路。过去人们称其为 Query Deserves Diversity(QDD)(一种以前未被证明存在的算法,同样的还有个QDF——Query Deserves Freshness)。

Matt Cutts:是的,这就是我们一部分算法运作的结果:发现高质量多样化的结果并帮助用户解决问题。我会使那些想要透视算法的人感到沮丧,他们应该关注自己所属市场的整个图景上。

如果已经是一个挤满玩家的空间,要考虑利基市场,而不是硬碰硬地和此领域的领头羊对打。在没有搜索引擎的时代这种战术你可能已经做过,但现在这还是最好的入场方式。找一些顽固守旧的玩家做不好的领域,关注它,在这个利基市场建立信誉,成为领头羊,然后继续前行。

最典型的例子就是旅行网站hipmunk.com,为你提供牛逼的可视化旅行家湖,这是一个梦幻般的UI设计,吸引了很多人的关注。

hipmunk

Eric Enge:最近我明白了链接建设趘一个有趣的术语迷惑了很多人。有点本末倒置,这让人们认为链接就是一些从互联网阴暗角落得到的东西,放在那些从没人访问的角落,因此,以这种思维来,链接建设,从开始就注定了是错误的。

Matt Cutts:说得对。这把人们带到了错误的地方,让人们为了做链接而做链接,要做牛逼事前如何看待这件事是很重要的,如果你有一个牛逼的产品,世界级的内容,能脱颖而出的东西,自然而然地回去想怎么促进它。(这段看似没说什么但还真是挺对的哟)

Eric Enge:同样的道理也适用于做产品和做市场

Matt Cutts:当然。这是一种观念——不论你称它什么,重要的是你怎么去做。

Eric Enge:我经常对我的客户说要关注品牌建设的活动。典型的只要连接不要品牌包括了:文章目录,低价目录,链轮,博客网络(就是BSP博客)、其他任何不关注编辑内容质量的站点。

这么做对吗?

Matt Cutts:做的对。做一些建立自己信誉的事,把精力放在正确的活动方式上。这些都是搜索引擎发现价值的signals。远离spammy的博客,没有人会看那些博客的。一些博客商只是重包装(伪原创)了一下spammy的站点和服务就神经地宣传自己的站点被熊猫企鹅误杀了,而实际情况是这种质量的内容一个正常人普遍都不会去读。(此处推荐一下吴军老师的《数学之美》)

Eric Enge:我们聊点链接诱饵。许多年前一个公司写了篇关于死亡你不知道的XX事文章,引起哗然得到了巨大一坨的链接,这和公司业务稍有偏离但也还有点关系,你怎么看这样的事情?

Matt Cutts:这可以作为一种促销手段,显然如果内容和企业业务紧密相关,效果要更好得多。如果能用一种工具来为你的业务创造价值,并且人们确实喜欢,这完全OK的。

Eric Enge:那么信息图(信息图是最时髦和好用的链接诱饵)呢?

Matt Cutts:你这讨论让我有点为难。我同意信息视图是一种OK的推广手段,但挑战就如我说的那样,人们会用其作为他们想做事情的“掩饰”(如外链软文)。超过界限,那就不OK了。

原则上讲,信息图是无罪的。我要讲的是另一种状况,信息视图表达的信息是对的,但它基于的信息是错误的、离题的、误导人的。人们为了正确的信息而转载,却不知道转载这些信息图的时候链向了 一个完全不相关的网站,这并不意味着一个真实的“赞同”。从我们的角度看这不是一个真正有所指的链接。

如果业务相关,你创造的信息视图会发挥更好的作用。关键还是人们转载这些信息图要以已知的、赞同的、对你的站点有认可或者归属感的转载。此时,搜索引擎有理由相信该链接才是真正词达意的认可你网站的一个连接。(搜索引擎对社会化因素的态度)

这与我们以前讨论过的开发小工具插件类似。将来对这种信息图的权重打折是毋庸置疑的,一个隐藏的embedded链接VS真正对你站点投票的链接。

Eric Enge:有一件事,我相信很多人对作为google的最新算法的熊猫和企鹅念念不忘。用一个企鹅算法下的低质量文章站做例子。想象一下有人开发了一个低质量的文章目录。(操,这个问题matt没答,不语翻译)

Eric Enge:让我们换个话题。谈谈在60个城市中有店面的披萨连锁店,当他们建网站的时候给每个城市建了页面。

Matt Cutts:他们陷入麻烦是因为这些页面写满了完全一样的言辞” 我们的披萨传承50年制作工艺… “,这些话重复个6、7段是没必要的,这些信息在站点的顶级页面出现时没有问题的,但是在所有页面都重复就不OK 了。用户也会不爽的。

Eric Enge:我想网站主人会这么说,如果某人从搜索引擎来到了芝加哥页面,这样的(类似的)页面看起来就好像是这个站点唯一的页面,用户就会focus在这张页面上,这用户也不想去什么奥斯汀页面。

Matt Cutts:一大坨重复了一遍又一遍的内容依然不是个好主意。

Eric Enge:拿这些页面应该让他们放些什么呢?

Matt Cutts:地址和联系信息,一两句关于本地化的唯一信息就会变好很多。

Eric Enge:这不会被认为是浅薄(thin content)内容?

Matt Cutts:不。又一个相似的例子,我有一个撰稿人最近问了我一个问题。他网站上有一系列关于健身房的这种文章。他想知道是否有限制对于不同的健身房提供相同的内容,给不同地区的健身房客户提供相同的服务信息内容,从搜索角度看对她客户是有用的,如果有一个限制,将是更好的,例如不断以各种方式重写。

这又回到了你的青蛙例子,附加值。试想一下,在一个小城中的四个健身房有完全一样的介绍,别说搜索引擎,人也不会明白这四个地方的区别有什么。作为一个用户,读完你的内容,为什么选某一个而不选另一个?搜索引擎也是一样的。(某些条件下,伪原创才能有附加价值啊)

Eric Enge:让我们谈谈内容策展,我看到这些服务逐渐被推出,我觉得他们将推动网站使用内容策展作为得到有质量内容的方式。

Matt Cutts :还是一样的道理。我们今天讨论的,附加值是什么?是否真的有意义?以你的观点组织的最新内容是否对网站的访问者真的有意义?如果信息流来自第三方而你不参与,只是提供了一个地方发布,那还是别做了。

我们不会把这种方式看成为spam,但这种内容是浅内容,我们不倾向于将这种内容给一个高的排名。

Eric Enge:最后还有什么要和大伙儿交代的吗?

Matt Cutts:最主要的还是,大家要避免寻找捷径,在竞争激烈的市场领域要弄清楚如何区分出自己的特征,今天没有改变,想想如何创枣引人注目的内容或者引人注目的用户体验。

我在SMX Advanced的“Ask the SEOs”上看到的留言深受鼓舞,人们注意到我们在反SPAM上能做的很好,毫无疑问我们在检测低质量链接、垃圾链接上能力大大提升。

Eric Enge:感谢,马特

Matt Cutts:客气,恩克

翻以前看了一遍,就有心理准备,开始咋一看是篇没什么意义的文章,翻完和自己认知结合下感觉还是有收获。依然是一路趟着往下翻,看准确的移步原文。

Source:http://www.stonetemple.com/matt-cutts-and-eric-talk-about-what-makes-a-quality-site/

中文内容来源: http://www.an7.me/archives/1292

浅谈互联网页面价值

Featured

浅谈互联网页面价值
作者:百度搜索研发部

搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判断页面的价值呢?本文将逐一回答这些问题。
判断一个页面检索价值的依据

一、什么页面价值

前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值。那么对搜索引擎而言,价值体现在哪些方面呢?一个简单的推论,所有可能会对用户产生价值的页面都是对搜索引擎有价值的,将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求,我们称这种价值为检索价值。只要是能解决某个用户信息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价值的。

小学生张三喜欢在qzone上写日记,写他前天吃了什么,今天玩了什么。这些内容,是有价值的。它们对张三的家长、同学、老师,以及其他小学生,和对小学生日记感兴趣的人来说,都是有价值的。对于这个信息体来说,“张三”这个名字是检索的“key”。

有一些信息单元,只有“浏览”价值,而没有到达该信息的检索途径,那么该资源可能是有价值的,但检索价值就很低。比如一张百度大厦附近的地图,从浏览角度,是有价值的;但是如果没有任何周边文字说明(或者link的anchor text),只有一张光秃秃的地图,就没有检索价值。当然,如果图片的内容识别技术,有朝一日能自动识别出这个是“百度大厦附近地图”,或者能够自动分析出地图内的各种大厦、街道、餐馆等的名称,那么这张图一样变得有检索价值了。所以一个页面是否有检索价值,应该取决于两点:

1) 是否能解决某个特定的需求(价值)
2) 是否可以通过某个常规的搜索方式获得该信息(检索)

那么,没有检索价值的页面,是否对搜索引擎就没有价值了呢?仔细想想,答案是否定的。索引只是搜索引擎的一个环节,对于其他环节而言,没有检索价值的页面有可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言,有一些页面,本身没有检索价值,但通过这些页面的抓取和分析,能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息,从而节省更多的流量进行更加有效的抓取。

考虑到这种价值可以算作一种“间接的”检索价值,最终还是立足于索引价值的,在本文中就不再展开论述,我们只关注“检索价值”这一根本问题。下文中提到的“页面价值”特指页面的“检索价值”。

二、为什么要研究页面价值

首先,互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断,不收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。

第二,搜索引擎spider的抓取能力是有限的,出于访问友好性的考虑,对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下,抓取或页面更新就需要有一个先后顺序,而这一排序的主要参考依据就是页面价值,或者说对页面价值的预测(未抓取时)。这是页面价值在spider调度方面的应用。

第三,对于某些页面,页面内容发生变化,导致它的检索价值从有到无,典型的就是变为“死链”,或者“被黑”。对于这些页面,好的搜索引擎会在第一时间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是更多检索价值高的“好页面”。对于另一些页面,它不仅具有很高的检索价值,而且有很强的“时效性”,能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页面意味着越多的额外资源开销,以多快的速度收录和以多短的周期更新索引,需要通过页面价值的分析来指导。这两方面是页面价值在死链率时效性两大搜索引擎指标提升上的应用。

最后,普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的,在相关性大体相当的情况下,用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在ranking方面的应用。

可以说,页面检索价值的研究是搜索引擎中的一项较为基础的工作,对页面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率死链率时效性等几大主要指标。

三、如何判断页面价值

前文中提到过一个小学生张三qzone日记的例子。我们认为这个页面是有价值的,对张三的同学,朋友,家人都有价值。与此类似的,百度CEO李彦宏在i贴吧上发表一条十几个字的i贴,也是有价值的,对李彦宏的上千万粉丝都有价值。虽然李彦宏的i贴长度可能远小于张三的日记,但就这两个页面的价值来说,我们都会有一个共同的认识,即从普遍意义上讲,李彦宏的i贴价值远大于张三的日记。(当然,对于张三的妈妈来说很可能这个价值的关系是相反的)

再举个例子,搜索某个人的手机号码,搜索引擎返回了一个结果,是这个人在某个论坛上的一个回复。虽然这个手机号码关心的人不多,但因为资源是绝对稀缺的,对于关心这个手机号码的查询需求,这个页面是完全不可替代的,因此具有极高的价值。

另外,页面检索价值,还受到页面质量的影响。相似的页面,对于满足用户需求来说,往往会有很大差异,比如资源下载速度,页面的布局,广告的多寡。这类差异,姑且称之为页面质量。

最后,有些页面具有明显的公众话题性质,且这些资源往往在刚刚产生时有非常高的关注度,随着时间的推移热度显著下降,有着“新闻”的特征。典型的像各种“门”事件,地震、火灾等大型的自然灾害。我们认为这类资源具有“时效性”特征。

所以,一个页面的检索价值,大致受以下四个要素的影响:

感兴趣的受众群大小
该页面的稀缺程度(可替代性)
该页面的质量高低
该页面的时效性特征强弱

这四种要素,简称受众稀缺质量时效性

1. 受众

受众群体的大小,即代表了用户检索需求的大小。评价受众的大小主要依据信息发布源的受众信息内容本身受众两大方面。具体因素包括且不限于:

网站忠实用户群大小

一般来说,拥有自己忠实用户群的知名网站,他们的成功,在于他们的内容和服务,比别人更能吸引和满足用户。从这个角度来说,我们可以推论,拥有更多忠实用户群的网站上的内容,会比忠实用户群较少的网站上的内容,有更多的既有和潜在受众群。这样的话,忠实用户群大小,就可以变成对站点内资源检索价值的一种衡量指标。忠实用户群的好处在于,它是变动的。如果一个网站变差了,那么用户就会用脚投票。超链有过期问题,作弊问题,而虚假用户群作弊很难。一般所谓的网站知名度,会和忠实用户群数量密切相关。

资源分布规律

我们再考虑一个网站内部的资源分布所体现的受众群大小问题。比如新浪新闻首页的那些推介内容。新浪编辑为什么要推这些内容?因为他们认为这些是用户最感兴趣的。那么从索引价值角度而言,相当于有一个庞大的编辑团队,已经对这些内容打上了“符合大众口味”的标签。搜索引擎只需要乐享其成就行了。这样的话,资源相对于某些结构性关键页面(首页、频道页等)的链接深度,也可以成为衡量一个资源受众群大小的指标了

访问热门度

我们再从访问热门度角度来考虑受众群大小问题。这个是最直接的,当然,它需要第三方的工具来获取关键数据。通过这个途径,获取的不应仅仅是需要入库的页面,还有用户访问一个网站的访问模式。

超链

超链某种程度上也是受众群大小的反映。某个资源的质量越高,接触的受众群越大,那么获得正常链接的数量往往也越大。

内容特征

A:我写博客:“传言郭德纲要上春晚了。”
B:我写博客:“我今天吃早饭了。”

同样的来源,前者的受众必然高于后者。即:当在发布源相同的情况下,具有公众属性的内容分值会更高

2. 稀缺

稀缺主要是描述页面在互联网中的独特性。说到稀缺往往会想到重复,稀缺是否等同于无重复,我们应该怎样解读这一概念呢?可以看一个例子:

某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,

一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益

另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益

因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。

同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。

综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低

3. 质量

页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。

首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。
其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。
最后,信息是否丰富、延伸出的次级需求是否满足。

典型的低质量页面存在以下一些特征:

主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)
死链
虚假信息/诈骗等
空页面
站点不稳定
影响主需求的权限问题(下载/浏览需要注册会员/积分等)
信息不完整(转载不全等)
浏览体验差(广告/字体/页面布局等)

典型的高质量页面存在以下一些特征:

访问速度快(页面加载快/资源下载速度快)
页面整洁干净,主体内容在显著位置
页面信息完整
页面元素丰富(文字、图片、评论、相关推荐等)

4. 时效性

“时效性”是页面价值的一个属性,它一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。对于具有上述两种属性的页面,如果搜索引擎spider发现页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们认为该页面具有时效性。

需要说明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的及时收录提供检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章,张三的日记。页面价值中的“时效性”指得是一种突发时效性,也就是所有有价值页面中最需要及时收录的那些。对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方,产生最好的性价比。

判断页面的时效性价值,主要通过下面一些途径:

页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。
描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报 …
根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常 …

四、页面价值的研究重点

前文已经介绍了页面价值的含义,研究的意义与价值判断的方法。最后我们再看一下,从技术角度上,这一方向的研究中的重点方向。对页面价值的研究工作主要致力于三方面:

对页面价值体系的认识。我们目前对页面价值的认识是来源于前文所述的四个维度,这个认识是否全面,对于不断变化的互联网环境与用户需求,这些维度应该如何扩展与变化才能更好的服务于整体的搜索体验提升,是一个很重要问题。

对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。

对各种页面特征的组合策略(机器学习)。针对不用的应用方向,需要利用相应的特征通过合理且高效的策略拟合出页面价值的最终评价结果。