欢迎你加入百度网页搜索质量评估团队,作为百度搜索质量评测员,在接下来的日子里,你会参加众多类型的评测任务。本文主要介绍“Query-Url质量评估”的评估指南说明。
请你接下来花些时间仔细阅读如下内容,这将非常有助于你完成“query-url质量评估”的评测任务。同时,“Query-Url质量评估”是其他众多评测任务的基础,做好该评测类型也将有助于你很好完成其他类型评测任务。
1、评估必备软件
为了你能正常进行评估任务,请确保安装如下软件:
1.1 firefox浏览器
浏览器是我们工作中最基本的软件。为了保证你正常的工作,请使用firefox浏览器,并且一般升级到最新的版本。可从此处下载:http://www.firefox.com.cn/download/
但因为firefox对某些页面支持不够好,导致页面内容异常,如遇此情况请更换IE浏览器查看。常见的Firefox支持不够好的页面包括音乐播放页、视频播放页、软件下载页等。如下几个例子:
Firefox不支持迅雷下载需要更换IE:http://kuai.xunlei.com/d/GVKWITFIEELJ
Firefox不支持在线听歌需要更换IE:http://www.2651.cn/Html/2/Play_5880.html
Firefox不支持在线观看需要更换IE: http://www.ddoo.cc/jq/14134/play-0-0.html
1.2 杀毒软件
在评估中,你需要浏览打开各种各样的url网页,其中有些可能会含有病毒、损害你的电脑,所以建议你安装好杀毒软件。
下面一些类型在页面抓取中常常有问题,需要你实际点击url来重新下载查看,这些格式的文件一般安全的,不太可能有病毒,比如:
.txt (text file)
.ppt 或 .pptx (Microsoft PowerPoint)
.doc 或 .docx (Microsoft Word)
.xls 或 .xlsx (Microsoft Excel)
.pdf (PDF file)
1.3 adobe flash player、windows media、qvod、百度影音等播放器
现在互联网上有很多网页,特别是含有视频、音乐等页面,需要已经安装了Adobe的flash player为最新版本,才可正常访问;部分视频需要安装qvod播放器等才能播放,举例说明:
需要安装flash player的:http://www.chevrolet.com.cn/brandsite/
需要安装Qvod的:http://www.kxkdy.com/tid-8831/
需要安装百度影音的:http://www.qire123.com/mainland/anxian/
1.4 迅雷、QQ旋风、快车(flashget)等下载软件
有些评估需要确认下载链接是否有效,而且通常会限定使用特定软件来下载,所以您要安装迅雷、QQ旋风、快车等常用下载软件来验证是否为有效下载。比如:
需要安装迅雷才能下载的:http://kuai.xunlei.com/d/GVKWITFIEELJ
2、评估必备基础知识
2.1 什么是query-url质量评估
本问说的query-url质量评估,核心是根据query需求,衡量搜索结果(即一个url页面)的好坏。评估的标准是看搜索结果是否能提供用户想找的信息,满足了用户的需求,以及在多大程度上满足了用户的需求。这里面包含两个层次:
(1)搜索结果是否可以提供用户想找的信息。如果结果正是用户所找,可以满足用户需求,则是好结果;如果结果里没有用户想要的信息,没有用户关心的内容,则是差结果。
(2)多大程度上满足了用户的需求。在能满足用户需求的前提下,用户获取信息越丰富、全面、权威越好;成本越低越好,成本包括花费的时间、操作的步骤、用户需要的信息是否可以明显的展现出来等。
2.2 搜索质量评估的目的
百度的使命是“让人们最便捷地获取信息,找到所求”,目标是最大程度的满足用户需求,不断完善搜索质量,提升用户体验。
Query-url质量评估是提升搜索质量的一个基础且核心步骤,我们需要通过评估来发现目前的缺陷,从而提高搜索质量。搜索质量评估工作的成果,将影响到包括您在内的数亿百度用户的搜索体验。
2.3 常用术语解释
为了便于理解本文档, 对一些常用的名词术语等进行如下说明:
Query
也可称查询词、关键词、搜索词,指用户输入到搜索框想要查找的字、词、符号等。以后作为Query出现的词,一般都会用“【”、“】”括起来。
Term
即组成一个query的字、词,如query【新浪微博】,拆开后的“新浪”、“微博”,我们称为Term。
用户需求/
简称“需求”,对于用户来说,来到搜索引擎是带着目的来的,他们键入搜索词是希望获得相应的满足,比如获得相应的信息、网上购物等,我们把用户query背后的这种诉求称为用户需求。
如搜索【新浪微博】,用户需求是找站点http://t.sina.com.cn/,进入微博查看信息、发微博等;搜【如何减肥】,是想减肥,找减肥的方法产品活动等。我们把用户输入的“query”背后表达的意图称为“用户需求”。
搜索结果
指搜索引擎(如百度、google等)根据Query返回的搜索结果,可以指具体某一条Url页面,也可以指所有的搜索结果。
URL
也称为网页地址,简称网址。百度主页页面的url是“http://www.baidu.com/”。本文用url指就是我们需要评估的一个页面,但是需要注意,我们要评估的是这个url页面载入后这个页面上所提供的内容,而不是url本身。所以query-url评估打分,即根据query,对该url页面的打分。
网站主页
我们也将网站的主页面称为网站首页,这是我们登入、浏览该网站时最先看到的主要页面。网站主页的url往往以.com\.edu\.org\.gov等结尾,如http://www.apple.com/就是苹果电脑公司的网站主页,新浪网站的主页为http://www.sina.com.cn/,又例如http://www.mcdonalds.com/是麦当劳的网站主页。
网站子页面
网站中凡是非主页的页面,我们都称之为该网站的子页面。比如说http://www.apple.com/iphone/ 就是苹果公司网站的一个子页面,又例如麦当劳的一个子页面为: http://www.mcdonalds.com/usa/rest_locator.html。
主题
也称为query表意,一个query的主题即query表达的意思是什么,用户输入一个query是想在搜索引擎中找到与该query主题相关的网页等内容。
页面内容
在页面上,广告、赞助商链接等不作为页面内容来进行评估,我们需要评估的是页面的主体信息,如站长发布的内容,即网页自身上所能提供的信息,评分时不应该根据广告来进行评估,即使某些广告可能看上去是相关的。
需求满足度
也称需求满足、满足程度,即一个url页面对用户需求满足有多大帮助和价值的衡量,满足程度高的页面对用户非常有帮助,反之满足程度低的页面对用户价值很低。需求满足是衡量搜索引擎质量的最重要因素,是在评估打分中需要重点考虑的。
有效性
在评估网页时,资源有效性是非常重要的评估要素,如视频是否能播放、软件是否能下载。一个资源有效高质量网页才能满足用户的需求,一个实际失效的网页,对于用户来说是没用的。
query-url质量评估概述
1、Query-Url质量评估介绍
Query-URL质量打分是最重要的一种打分方式,是评价各搜索引擎好坏的基本方式之一。这种评估是根据Query背后的需求,去评价某条结果(即URL页面)对用户需求的满足程度。
2、Query-Url质量评估考虑的维度
Query-Url质量评估,即评价结果的需求满足,看结果能给用户带来多少的帮助和价值。影响用户需求满足的因素很多,我们列出常见的七种。
2.1 相关性:query与结果说的是不是一回事
相关性,是指结果主题跟用户需求的主题匹配程度,两者说的是不是一回事,有没有跑题。相关,是一个好结果最基本的要求。后面其它的因素都建立在其之上。如果不相关,那肯定是差的结果。
下面列举几种典型的不相关的情况:
(1)丢了Query中的重要成分。搜【阈怎么发音】,“阈”没了
(2)拆散了Query,意思完全偏离。查【林字有多少笔画】,出来“爨字共有多少笔”。虽然query中的term在页面都有命中,但是因为拆散后主题完全偏离。
(3)含意转变(转义)。搜【李文】,出来“李文和”。
2.2 需求强度:抓住主要需求
搜同一个Query,不同用户的需求可能不同。此时,要站在多数用户的角度来判断,越多人查找的需求越重要。主要需求是最多人找的,满足主要需求的结果,是最好的结果;满足冷门需求,则结果差些。
如【苹果】,主要需求是苹果品牌、产品相关,而水果、电影的主题表意需求较少。
2.3 丰富程度:详细全面
多数的查询,越详细的资料内容越好,例如文档、材料、介绍、评论、相关内容等泛需求、又或者一些本身有多种方法需求的query,举几个简单例子:
搜【感动的作文】,通常用户会参考多篇作文,这时提供多篇结果比一篇好;
找某个新闻事件,专题要比单篇好;
搜索某部电视剧,如【一起又看流星雨】,全集通常比某一集好;
搜索【电脑无法开机】,由于原因可能有多种,分析地越详尽越好。
※ 但是要注意,但也有一些case,由于所求内容相对简单单一,可能一两句话就能满足的很好,这种情况不应当认为文字很少丰富度低,而做出降档打分。
2.4 有效性:能否真正满足
用户需求的满足是完整的过程。一定要注意用户搜索的最终需求是什么,这个结果能不能满足最终的需求,只有能满足最终需求的结果才是好结果。
(1)需要检查资源是否有效,如
搜软件下载,不能看到页面上出现“下载”这几个字就到此为止。用户需求是下载安装使用该软件,要准确地评估,必须尝试下载,看其是否真实可用;若是冒牌伪装,或者有病毒木马,那么就不是好的结果。
搜【小学数学教学论文】,出来列表页,都是小学数字方面的论文,看起来很好,但是请再点击一两篇论文,看看其是否相关,能否查看阅读。
(2)查看资源是否权限限制,如
找某文档,要注册、或花钱才能下载;
想看电影,要装插件。
多数用户都希望直接、免费、快速地得到;装软件、注册、花钱,大大增加了用户的成本,不能算高质量。
2.5 时效性:新
有些查询,对时间有着较高的要求,期望得到最新的信息,常见的是突发新闻的搜索。哪怕没有明确指定什么新闻,给出最新的内容也是很好的。
如【上海大火】,自20101115后相当长一段时间,都是找20101115发生的胶州路大火;20120227前后几天搜索【奥斯卡】,主要需求是找84届奥斯卡金像奖。
招聘、交易等信息对时效性要求高,内容的生成时间极其重要。如果过期了,是陈旧的信息,那对用户通常没太大价值;找某方面的招聘信息,若招聘已结束,价值也很低。几个月前的物品交易信息,很可能交易已完成,现在找到没太大价值;找【电脑组装配置单】,两年前的配置单,给用户的帮助很小。【U盘价格】,一年前的价格对现在参考价值也不是很大。
2.6 便捷性:找到目标信息要花多少时间和成本
便捷性,指从打开页面开始,到寻找到所需信息、达到最终目的,所要花费的时间和成本。如果页面有十来屏,所需信息不在第一屏,很多人可能会放弃。如果页面凌乱,或广告晃眼,或广告很多,同样影响用户。
好的结果应当让用户很方便的找到自己要的信息,比如在第一屏显著位置给出目标信息,用户可以轻易地看到。
2.7 权威度:英雄也要问出处
权威性考察的是内容发布在不同网站、或内容贡献者的身份给用户的不同感觉。如:
同样的软件,都能下载,用户更倾向点击官网,以及自己熟知的的华军、天空等知名软件下载站上的结果;
同样一篇新闻,出现在新浪新闻、新华网上,跟bbs、个人博客上的转载相比,前者会更权威;
医治健康、法律相关问题,医生、律师的回答,肯定更让人们信服;
官方网站发布的信息,比其它网站更可信。
2.8 总结:不同维度适用query范围
这7个维度在不同特征的query下,关注的重点有不一样,不同维度适用的query范围说明如下:
维度 | 适用哪些query | 举例说明 |
相关性 | 所有 | 不相关,如丢掉了核心词肯定是0;
相关,也有可能是0,如软件虚假,视频不能播放。 |
需求比例 | 需求有多个 | 需求分析时,重要的是分析主要需求是什么;
非主要需求,最高只能2分。 |
丰富程度 | 需要详细的内容 | 搜作文范文、报告总结、人物资料等,丰富度越高越好,如【实习总结】、【杨幂资料】
如一句话、数字等简短的内容即可满足,则丰富程度要求不高,如【刘备字什么】、【横看成岭侧成峰的下一句】 |
有效性 | 大多为交互操作类query,如下载、视频、试听、文档阅读等,只有资源有效才能满足用户需求的 | 下载,一定要尝试能否下载,是否真实
如视频,要看内容是否查看,是否真实 如物流查询,要真能查,才有价值。 |
时效性 | 明确或隐含着时间要求的查询 | 近期事件(如地震)、招聘、交易信息等,对时效性要求高;
高考等周期性事件也有时效性要求; 中国人口等隐含最新数据的时效性要求; |
便捷性 | 所有 | 用户要找的位于显著位置,第一眼就能看到为便捷性好;当比较难以在页面方便的找到时,即为获取信息满足成本高,会稍差; |
权威度 | 软件下载、商品交易、医疗健康等对权威有要求 | 来自知名网站、专业网站,让人放心。软件下载、医疗健康、银行等,对权威方面的要求高; |
3、Query-Url打分分档介绍
打分类别 | 含义 | 描述 |
4(Vital) | 官方 | 官网权威页面(详细说明见Part4的2) |
3(Useful) | 很好,对大多数人都非常有用 | 该url页面能满足大多数用户需求,很有价值 |
2(Relevant) | 比较有价值,对部分人较有帮助 | 该url页面对较多或一些用户较有价值 |
1(Slightly Relevant) | 稍沾边,略微有帮助 | 该url页面对大多数用户价值不高,但是跟query相关,少数用户觉得该页面有点帮助 |
0(Off-topic OR Useless) | 不相关或无用资源 | 该url页面毫无价值或价值很低 |
死链 | 需求无法判断或无法被评估的页面(详细说明见Part4的7) |
4、Query-Url打分原则
作为评估人员,需要将自己当成实际输入这个query的用户,去评判各个结果能否满足自己的需求,从而判断各个结果的好坏,并给出适当的评分。
站在“用户”的角度,评测人员把自己当成真正的用户,这一点非常重要。
5、Query-Url评估步骤
整个评估过程可划分为三个步骤:
需求判断:分析推断用户搜索这个query是想找什么,确定用户需求;
页面质量判断:查看实际url页面,判断结果能否以及多大程度上满足用户需求;
打分:根据本评估指南,选择合适的分值。
Part3 理解用户需求
用户为满足自己某种需求而来到搜索引擎的,判断用户的需求是准确评估打分的必备基础。只有准确地判断出用户需求,了解用户搜索的目的,才能合理地衡量结果的质量好坏。
1、如何判断query需求
多数Query,本身表述清楚,含义明确,以其表达出来的意思为准。如【让子弹飞 剧情】、【繁体在线转换】、【舞蹈教学视频】等。
有些Query依靠个人的知识、经验能够理解,但还有一些可能需要通过查询相应的百科(如http://baike.baidu.com )、用不同的搜索引擎进行搜索,通过其检索结果学习了解背景知识后,从而判断出搜索的目的。
如【bl怎么去诺森德】,如果你不玩魔兽世界,单看Query,很难弄明白其搜索意图。通过查看几个搜索结果后,知道用户是找“魔兽世界部落的玩家怎么去诺森德”。因此,建议遇到不了解的Query,先拿Query到百度、Google等搜索引擎上搜索了解一下。
※ 注意:当通过搜索引擎来确认用户需求时,千万不要直接将排在前面的结果当做好结果,将排在后面的结果当做差结果。这应当只作为你确认用户需求的方式之一,而非直接根据搜索引擎现有排序情况进行打分。
另外,当query需求多样时,我们比较难判断用户的主要需求有哪些方面,我们可以借助百度搜索建议提示,了解用户的主要需求。如:【天龙八部】有多个含义,游戏、小说、电视剧、佛教本义等,那到底哪个是主需求呢。看如下搜索建议提示,多是游戏相关,前两个“天龙八部3”、“天龙八部3官网”,其中多数是关于网游的,那么可以推断搜【天龙八部】的主要需求是找网络游戏。
【天龙八部】的搜索框提示:
2、query背后的实际需求意图
在理解query本身的含义后,接着你应当考虑用户输入这个query时,他所需要得到实际满足的需求是什么,并以此来对所给的url做出打分。
例如【俄罗斯方块】,用户需求很可能是要在线玩这个游戏,也有可能是要下载它;【还珠格格第一部】,大多数输入这个query知道这是一部电视剧,需求意图是想看这个电视剧。下面是一些用户需求意图的例子:
Query | 用户需求意图 |
圆通快递 | 查询快递单号,查找附近的网点等 |
京东 | 访问京东官网 |
万年历 | 在线查询万年历,或下载万年历软件 |
猴头菇 | 了解相应的介绍、做法等 |
query主体表意是否确定与需求是否多样
除了需求非常明确的query,如【让子弹飞 剧情】、【横看成岭侧成峰的下一句】,不少query都存在多样的需求。针对query需求的多样,我们会从下面3个角度理解:
Query主体表意:
存在query主体表意是确定还是非确定的区分,如许多query表意多样,即同样的query,表达的意思却差别万分。如:
【苹果】,有苹果品牌(ipad、iPhone对应的品牌);有苹果这种水果;还有电影《苹果》,这些都可能是用户要找的东西;【土豆】,用户的需求可能指视频站点或者食物等。
Query需求维度:
存在需求维度单一还是多样的区分,如【QQ下载】需求维度单一,即软件下载的需求;而【步步惊心电视剧】存在多种需求维度,包括电视剧观看、电视剧剧情等;
Query
即针对query不同主体表意和需求维度,存在需求强度大小之分,分为主要需求、泛需求、小众/冷门需求三类,后面详细介绍。
根据需求主题表意和维度,主要可以分为下面三种情况:
query主体确定,需求维度单一,如【美图秀秀在线下载】;
query主体确定,需求多样,如【赵薇】;
query主体表意不确定,需求多样,如【苹果】。
4、query需求的主次之分
百度的用户数以亿计,搜索同一个Query,不同人可能有着不同的需求,搜索引擎无法同样程度满足所有人的需求,而是尽可能最大程度满足大多数用户的需求。这也要求我们评估时要尽量挣脱个人局限,站在大多数用户的角度来衡量,把握需求主次之分。
根据query不同表意下的需求强度,以及同样表意下不同需求维度的需求强度,需求强弱可能有以下几种情况:
4.1 主需求
即输入这个query的用户中,大多数用户心目中存在的需求。
(1)多义query的表意主次之分:
如【windows】,当大多数用户键入这个query时,需求是微软的操作系统,而不是在墙上的玻璃窗户。在搜索引擎简单进行检索后,一般可以了解用户的主需求是什么。
(2)同义query下不同需求维度主次之分:除了利用搜索引擎、搜索引擎搜索提示等工具了解外,一般比较依赖你自身的常识判断,如:
对于软件来说,主需求往往是下载;
对于视频来说,主需求往往是在线观看;
对于小说来说,主需求往往是在线阅读;
4.2 重要需求/次要需求
即输入这个query的用户中,有部分用户存在的需求,根据需求的强度的略微差别,存在重要和次要之分。如2012年1月搜【城市猎人】,电影的需求即为次要需求;【亚马逊】,南美洲亚马逊河流的需求;
4.3 小众/冷门需求
在某些query下,有的表意和需求维度比较冷僻,用户需求的比例比较低或非常低,并且根据强度上略微差异,称为小众或冷门需求。如【城市猎人】,绝大部分人都是找影视结果,很少有人的需求是一个blogid为“城市猎人”的博客。该博客在这个query下,就称之为冷门需求,认为用户在这个query下想找这个结果的需求很低。
在某url满足的是query的小众/冷门需求时,往往评分比较低。
4.4 特殊情况:泛需求
在某些query下,几乎没有占绝对主导地位的表意或同义表意需求维度上绝对强弱之分,都有一定比例的用户需求,这样情况下根据需求强弱的差别打分,如【长沙】、【书籍】,以【倾国倾城】为例说明:
找“倾国倾城”的意思,如http://zhidao.baidu.com/question/298263788.html;
“倾国倾城”的音乐,如http://www.yue365.com/play/3790/187195.shtml;
“倾国倾城”的小说,如http://www.readnovel.com/book/56214/;
这些释义中,并没有哪一个是绝对主需求,认为query的需求很泛,其中音乐和意思的需求略强于小说等其他需求,不同的用户想得到不同表意相关的解释。
※ 注意:该类query因为没有绝对主需求,所以没有4分结果;
5、query需求意图类型
根据用户输入query时的需求意图不同,我们将用户需求大致分为3类:寻址需求、信息需求、交互操作需求。需要注意的是,有很多的query都会有多种需求,而每种需求可能是不同意图类型,所以需求意图都用来表达某个query下的某种需求是什么类型的。
Query某种需求的类型分为交互操作类、信息类、寻址类这3种,可以用“Do-Know-Go”这个来简单表示,这种分类方法有助于判断一个页面该怎么打分,具体介绍如下:
5.1 寻址需求
定义:寻址需求就是指,用户输入这个query,就是为了去某个特殊的页面,而且是用户已有确认的某个页面、或某个网站。用户希望通过搜索某query,来访问该页面。因此,在寻址需求中,最能满足用户需求的页面就是用户所求的那个url。
典型范例:
Query | 用户需求意图 |
ibm | http://www.ibm.com/cn/zh/ |
youku | http://www.youku.com/ |
京东 | http://www.JD.com/ |
北京大学 | http://www.pku.edu.cn/ |
人人网登陆 | http://www.renren.com/ |
5.2 信息需求
定义:用户的需求是获取信息,想了解某信息、某知识,搜索引擎的目标是让用户找到所求信息,给出相关的优质、权威、全面的信息。
典型范例:
Query | 用户需求意图 |
西夏王陵 | 信息介绍,关于该景点和旅游 |
DHC g10拆机方法 | 如何拆机,拆机的步骤 |
如何清除油渍 | 找清除油渍的方法 |
5.3 交互操作需求
定义:用户是要从事某项操作和活动,往往是需要在某个url上,与页面进行一定的交互,从而达到用户的目标、完成相应的操作。一般对资源是否有效从而完成操作有较高要求。
典型交互需求:
•购买产品\•下载免费或需购买的软件\•网上支付帐单\•在线玩游戏\•预订酒店\•听音乐\•观看视频\•查看图片\•网上调查
典型具有交互需求类别需求的query:
Query | 用户可能的需求意图 |
甲壳虫乐队海报 | 查看或下载对应图片 |
Adobe Reader下载 | 软件下载 |
在线职业测试 | 在线做职业测试 |
汇率兑换 | 在线进行汇率兑换查询 |
龙门飞甲 DVD | 在线购买或下载DVD |
小游戏 | 在线玩儿小游戏 |
英文翻译 | 在线进行中英之间翻译 |
Part4 五档打分标准
1、各档打分定义
Query-url相关性打分提供了6种打分选项,包括0-4打分和抛弃。基于用户需求意图分析和Url页面对用户需求满足程度,进行4、3、2、1、0的打分。而对于特殊情况无法进行打分的页面,进行“抛弃”的标记。具体说明如下:
打分类别 | 含义 | 描述 |
4(Vital) | 官方 | 官网权威页面 |
3(Useful) | 很好:非常有价值 | 该url页面能满足大多数用户需求,很有价值 |
2(Relevant) | 不错:较有价值 | 该url页面对较多或一些用户较有价值 |
1(Slightly Relevant) | 略相关、有点帮助 | 该url页面对大多数用户价值不高,但是跟query相关,少数用户觉得该页面有点帮助 |
0(Off-topic OR Useless) | 跟query主题完全不相关或无用资源 | 该url页面毫无价值或价值很低 |
死链 | 即页面死链导致无法判断 | 死链导致无法被评估的页面 |
2、4分——官方
2.1 4分的定义
4分仅适合于某些特殊情况,对query和url页面都存在着特殊的要求:
(1)适用query:主需求明确
对query的基本要求是:主需求很明确,主要语义表意意图的网站页面才打4分,否则都不能打4分。如query【当当】,存在主要表意需求“著名电子商务网站”,所以http://www.dangdang.com/可以打4分,而如果是某个“当当”的制鞋公司则不能给4分。
(2)适用url:官方页面
官方:Url是Query对应主要需求的官方网站、或官网上对应的页面,如人名、地名、机构、产品、公司等的官网等;
首发:用户想找报道、小说、论坛上的帖子等文字作品,结果是作者博客上的原文、该作品的首发地址,这种也可以认为是官方的页面;
(3)特殊说明:4分不一定都是最有价值
4分的定义中,我们并没有对结果的质量好坏提出非常明确的要求。当然,4分的结果往往都是非常有帮助的、排版良好的,但是这并非是绝对条件。对于某些query,官方结果可能并非互联网上最有帮助的页面,但由于其官方、原创性,标记4分是合理的。
2.2 举例说明
下面将针对一些特定类型进行举例说明什么情景下打4分,什么情景下不能打4分:
2.2.1 4分典型例子
(1)寻址类query
下面是一些用户找某个具体网站的query的例子:
Query | 用户需求意图 | 4分URL | Url说明 |
qq空间 | 去qq空间官方页面 | http://qzone.qq.com/ | QQ空间的网址 |
4399小游戏 | 去4399游戏网站玩游戏 | http://www.4399.com/ | 4399官方网站 |
优酷 | 去优酷视频的官网看视频 | http://www.youku.com/ | 优酷官网 |
新浪微博 | 去新浪微博的官网查看、发布微博等 | http://weibo.com/ | 新浪微博的官方页面 |
(2)实体类query
对于实体类query,如人名、机构、公司、电影、事件等。有些是寻址类需求,有些可能是找相关信息的,这些实体query的官网都认为是官方权威的结果,可以打4分。
Query类型 | Query | 4分URL | Url说明 |
名人 | 姚晨 | http://t.sina.com.cn/yaochen | 姚晨本人官方的微博 |
公司 | Lenovo | http://www.lenovo.com.cn/ | Lenovo(联想)中文官方网站 |
大学 | 北京大学 | http://www.pku.edu.cn/ | 北京大学的官方网站 |
政府机构 | 铁道部 | http://www.china-mor.gov.cn/ | 铁道部官方网站 |
银行 | 招商银行 | http://www.cmbchina.com/ | 招商银行的官网 |
事件 | 上海世博会 | http://www.expo2010.cn/ | 2010年上海世博会的官网 |
产品 | Iphone | http://www.apple.com.cn/iphone/# | Iphone产品的官方页面 |
景点 | 故宫 | http://www.dpm.org.cn/index16801050.html | 故宫的官方网站 |
(3)指定网站/网页query
用户的需求是某个网站内的子站或子页面,那么对应的站点能很好满足需求的页面可以给4分。
Query | 用户需求意图 | 4分URL | Url说明 |
佳能ixus210 | 产品信息、购买需求 | http://www.canon.com.cn/products/camera/ixus/210/ | 佳能官网上的ixus210介绍 |
4399赛尔号 | 4399网站上的该游戏 | http://www.4399.com/flash/seer.htm | 4399上的赛尔号 |
交行信用卡中心 | 交行官网上的信用卡频道 | http://creditcard.bankcomm.com/ | 官网上对应的页面 |
美人心计 奇艺 | 奇艺网站上的对应影片 | http://www.qiyi.com/dianshiju/mrxj.html | 视频网站奇艺上的《美人心计》电视剧,是用户明确指定网站的完全满足需求结果,可以给4分。 |
(4)人名query
所有的4分结果,都要求query主需求明确。对于人名query这一类相对特殊的query来说,根据query本身的特征做出一些分类,从而帮助判断是否可以有4分结果。如下:
Query类别 | Query范例 | 是否有4分结果 |
著名人名 | 周杰伦、奥巴马、布兰妮 | 可以;有绝对主需求 |
非名人但人名特指 | Lalith Wickramanayaka | 可以;能判断出明确指代某个人,是斯里兰卡的某个大学老师 |
不著名常见人名 | 安娜、小王、王丽娜、王超 | 不可;认为需求分散无主需求 |
常见人名+限定 | 王超 爱乐团 | 可以;如果范围被缩小,能对应到唯一的某人上,可以有4分 |
在有4分结果的人名query下,有些典型的范例:她(他)的官方网站、博客、微博、空间、社交网站(如人人、开心)上的个人主页等,如果确实是本人发布,或者已得到授权,那么可以给4分。
※ 注意:非人名的实体query,例如是品牌、公司所具有的和维护的博客、微博等社交类网站,即使确实是官方的,那么也认为不可以达到4分标准;
范例:
Query | URL页面 | Url说明 |
姚晨 | http://t.sina.com.cn/yaochen | 姚晨的微博和博客;4分 |
华章图书 | http://t.sina.com.cn/huazhangbook | 它的新浪微博、豆瓣小站;不可以4分 |
(5)Url 查询query 有些query直接就是某个具体的url,或者看起来和url非常相似,称之为url查询; 典型url查询:
- Query本身就是一个完整的url,范例:www.youku.com
- 只要添加www这样的常见前缀即可成为完整url:360buy.com(可能访问时会自动加上前缀)
- 有些虽然没有前缀,但确实也是完整url的:xunlei.com
对于query查询来说,主需求就是这个地址本身:
(6)首发地址Url
Query是文章、小说名等,作者原创首发帖子、博客、空间、文章等可以给4分。如果文章是报刊发表的,则该报刊网站上的对应文章可以给4分。
※ 注意:有时候比较难以判定这个官网、博客、社交网站等是否是官方的,可以搜索看一下大家评论是否是官网;原创有些情况下比较难判断,如果你仔细分析后还是不能确定是否原创、首发,请不要打4分,而按照实际需求满足情况给予合适的打分。
2.2.2 没有4分的典型情况
4分结果为要求相当高的好结果,并非所有的query都有。可以认为大多数query没有4分的网页。以下几种情况是不会有4分页面的:
- query没有主需求,需求比较分散;
- Query并非一个实体、或者并非寻址需求、以及非原创地址、非url查询对应的url;
- Query并没有对应的官方网站或网页存在;
- Query需求很泛,没有任何人或实体可以对应并完全覆盖这个query,如蘑菇
无4分结果的query范例:
2.2.3 有多个4分结果的典型情况
虽然4分的要求是原创、官方,但有时候确实有些query下不但具有4分结果,而且可能具有多个4分结果,打分可以一致的典型类别:
- 多个url对应的实际页面完全相同,例如有无www前缀,index后缀等区别;
- 多个url具有相互跳转关系,例如urlA会自动跳转到urlB;
- 多个url对于query来说都可以快捷满足用户需求,典型的例如:
- 下载需求:软件官网首页与下载内页;
- 网站/产品:某网站与其提供的特殊产品都有较大需求(注意:此非无主需求)。
(1)URL不一样,实际页面完全相同
(2)URL之间跳转关系,实际页面一样
(3)不同URL都可以快捷满足主要需求
2.2.4 其他考量
(1)语言问题
国际上一些大的机构、品牌,往往有多种语言的官网页面,对于这种情况,考虑到百度的用户都主要是中文用户,所以有语言障碍的页面应当酌情降分,典型原则:
具有简体中文官网:只有简体中文官网可以给4分,英文及其他语言给3分;
没有简体中文官网:英文\繁体中文官网可以给4分,该机构品牌所在地语言的官网为3分,如The face shop是韩国的品牌,那么韩语官网可以给3分,其他较冷门语言给2分。