当前位置:阜阳 > 公司新闻 > 竞价托管 >
相关文章
    阜阳公司变更经营范围,还需要资质
    有不少的企业在经营过程中,因为自身的情况,或多或少的会选择变更一些事项,而今天说到的就是阜阳公司变更经营范围时,涉及到资质审批的该怎么做呢?下面帮帮创业网小编就来 ...
    公司简易注销和正常注销所需材料
    公司注销分为简易注销和正常注销,有些公司能做简易注销,但是也需要满足一定的条件,下面跟随小编一起来看看简易注销和正常注销分别需要准备哪些材料吧! 营业执照正、副本( ...
    要怎样才能注销公司呢?
    大多数的企业现在在阜阳注册公司以后,不管是因为企业的人员问题,还是政策问题等情况, 阜阳代理注册记账公司 ,在成立以后,拿到了营业执照,过了一段时间,不经营了,那样 ...
    注销公司好还是公司转让好呢?
    企业在以后的正常经营过程中,考虑到自己的发展问题,不能给正常经营了,这个时候就要按照规定,注销公司了,但是很多创业者会想是公司转让还还是注销好呢,下面帮帮创业网小 ...
    阜阳公司注册地址变更流程有哪些呢
    阜阳公司可以在网上注销吗阜阳怎样才能注销公司最近很多创业者们看到帮帮创业网服务平台,也看都有很多创业者们在这里得到了很多的帮助,这里就有几位创业者们咨询小编阜阳公 ...
    社保入税 公司不经营了 你务必注销
    最近小编听同事讲,很多老板或者人事都在问律,2018年公司经营惨淡,勉强支撑到年底,2019年各项新的政策出来后无形中又增加了企业的经营成本,公司注销成了迫在眉睫的事,那么 ...
    注销公司的流程和需要的材料有哪些
    近年来,越来越多的人加入了万众创业的行列,不过有些公司在经营了一段时间以后,发现公司的前景和自己的预期有一定的差距,濒临倒闭和破产,这个时候很多人就想把当时辛辛苦 ...
    阜阳公司注销登报你知道不?
    阜阳怎么要注销公司阜阳办理变更工商执照相信创业者们都对于公司在不经营以后,选择注销是很会有很多的事项,比注册时候会更麻烦,但是创业者们看了注销的流程之后,就想了, ...
    【热度】奔驰正式道歉!税务局见!
    小时候幻想长大开奔驰,长大了才知道奔驰漏油,小时候以为女孩只能坐在宝马里哭,现在才知道坐在奔驰车盖也能哭。 4月13日,哭诉维权奔驰女车主首次提出,其在不知情情况下,被 ...
    阜阳公司注销办理流程麻烦吗?需要
    公司注册容易注销难,很多老板在选择关闭公司的时候,考虑到注销公司的程序繁琐,都想选择不注销,但是不注销将会带来更加麻烦的后果,比如公司将被工商部加入黑名单、税务局 ...
    长期不经营的公司注销流程
    很多人在注册公司的时候,想着多注册几家公司,留着备用,阜阳公司如何办理注销可是却不知道长期不经营的公司会出问题,公司6个月没有记账纳税,将会被列入工商异常,很多人悔 ...
    阜阳工商注销简易攻略,请查收!
    阜阳企业工商代办注销一家公司花费不少,并且办理起来复杂且耗时,这是普遍存在的事实。关于阜阳工商注销,最近小编就在网上看到了一位网友的留言: 我注册公司后,完全没有经 ...
    【干货】如何筛选高价值关键词?
    即便如此,它可能不会给企业带来有价值的东西,但可能会受到老板的谴责或指责。作为SEO站长,尽量学会权衡,把重点放在高价值的关键词上,从而给老板带来他想要的好处。那么如 ...
    出价决定推广的效果?该怎么调控?
    SEM翻译成中文搜索引擎营销,包括投标。 出价是多少? 是有竞争力的价格吗。 在SEM系统中,投标被称为搜索推广。 SEM营销系统除了搜索引擎优化和推广之外,还包括其他产品。 搜索 ...
    竞价员注意!项目推广前一定要做好
    竞价投放前的市场分析对于竞价推广来说非常重要,拿到一个项目,竞价投放策略对了就已经成功了一半,而且后面的工作过程中会发现越努力,越顺利。 如果不做市场调研、分析,就 ...
    注意!百度后台这几项操作,直接关
    百度是流量三大巨头之一,其旗下的搜索引擎占据国内大多数用户。其人群范围较广,涵盖各年龄层的用户,所以在投放行业上也更为广泛。 百度是靠搜索起家,拥有大量的数据,最大 ...
    确认过眼神,这里有你想要了解的百
    竞价托管百度竞价排名也叫百度推广,它是指将企业的产品、服务等,以关键词的形式在百度搜索引擎平台上做推广。 对于关键词的利用,其实我们都并不陌生,不知你是否有过搜索片 ...
    要想竞价推广做得好,关键词匹配是
    简单来说,在用户进行搜索时,根据搜索习惯的不同,系统会自动挑选对应关键词, 阜阳公司代理记账找哪些 ,将推广结果展现给用户,我们可以通过设置关键词匹配模式,来决定用 ...
    竞价员绩效考核标准,老板一定要了
    竞价托管做过竞价推广的企业都知道,竞价是一种被动展现,按点击收费,最终以转化为结果导向的一种营销方式。至于企业能否获得良好的营销转化,除了一些外在因素,最重要的是 ...
    招商加盟行业:竞价创意这样写,让
    竞价推广作为大中小企业必备的营销方式之一,其特点是主动搜索被动展现,按点击收费,能够为企业带来高精准流量,带来实实在在的收益。 随着竞价推广发展的成熟,加入的企业越 ...
相关问题
竞价托管 一文了解搜索引擎的过去、现状和发展

来自:企慧财税    发布时间:2019-09-16    浏览 :

 

  竞价托管提及搜索引擎,大家脑海中就会浮现起国内的百度和国外的Google,我们想要查找什么资料,直接在搜索框中输入关键字,点击搜索按钮,之后就会展现搜索结果。

  其实这只是搜索引擎的一部分,我们使用微博搜索某个明星,使用淘宝搜索商品,使用豆瓣搜索一本书,都是搜索引擎。这些搜索引擎因为太常用,我们反而没有意识到。

  在搜索引擎诞生前,我们使用分类目录来获取信息。Yahoo!和国内hao123是分类目录的代表。当时信息相对较少,通过人工整理,把属于各个类别的高质量网站罗列出来,比如:按照财经类、新闻类、体育类、游戏类等项目进行整理,用户可以通过分类目录来查找需要的信息。

  但一个页面的展示空间有限,分类目录也只能收录少数的网站,绝大多数网站都无法被收录,而那些没有被收录的信息,可能正是大家需要的。

  最早的搜索引擎,通过查找用户输入的关键词与网页信息的匹配程度,也就是计算两者的相关性,展示网页列表,至于如何计算匹配程度,会在后文讲解。

  相比分类目录,这种方式可以收录大量的网页,并按照用户查询的关键词和网页内容的匹配程度进行排序。

  但这种方式有个巨大的问题:只考虑了相关性,没有考虑网页的质量。网页可以通过大量罗列跟内容无关的关键词,来提高与关键词的相关性。

  比如:一家做教育的网站,可能会罗列明星、宠物、新闻甚至色情等高流量词语,这种“强行蹭流量”的方式,造成的后果就是搜索结果质量并不好。

  解决这个问题的是Google,Google假设网页的链接越多,网站质量越高。利用网页之间的链接数量来确定网页质量,一个网页的链接数量越多,说明在网页在整个互联网中质量越高,Google的核心算法,也会在后文讲述。

  发展到现在,搜索引擎不仅需要解决相关性和质量的问题,还要更多考虑用户的真实需求,比如:同样输入“苹果”,年轻人可能想的是手机,另外一些人想到的是水果。这就需要更加复杂的算法和程序了。

  从分类目录、相关性搜索、高质量搜索、个性化搜索,我们可以从搜索引擎的发展阶段看出,搜索引擎越来越复杂,用户体验也更好了。

  当用户搜索一件商品,几十秒还没有搜索到,他可能去干其他事情了,就直接放弃购买了!商用搜索引擎的查询速度要达到毫秒级,一眨眼的功夫,搜索结果就出来了,用户体验就很好。

  这也是用户对大多数产品的要求,给用户一个合理的预期,用户才能够信任这款产品,三天两头不能用了,体验就差极了。

  巧妇难为无米之炊,信息获取是整个系统的基石。对商用搜索引擎而言,要求爬虫能够爬取全网内容,关于爬虫,我们再上一章已经介绍过了,这里就不再赘述。对网站内部搜索引擎而言,也需要把信息汇总起来,比如:电商平台,就需要把所有的产品信息存储到一起。

  信息处理主要是对原始数据清洗,存入数据库,这里最重要的一个环节就是构建索引,相当于给每一个内容添加目录,便于查找。

  信息展示指搜索引擎根据用户的查询词(query)来进行数据库检索,将结果展示给用户,主要涉及到用户查询内容与网页内容的相关性分析、网页质量评价等技术。

  以网页搜索引擎为例:下面这张是一个简单的索引系统(更准确的说法是倒排索引,至于为什么是倒排,这里先卖个小关子,后面会讲到)。

  左边是关键词,右边是这个关键词出现在哪个网页中,一个关键词可能同时出现在很多网页中,所以是一对多的关系。

  与书馆索引不同是:一个书馆再大,藏书毕竟还有有限的,书管理员可以手工给每个书建立索书号。但搜索引擎存储的数据都是以亿计算的,不可能手工建立索引,只能借助一些技术手段。

  构建索引的前提是提取出关键词,那么给定一个文本(也就是网页的文字内容),如何获取里面的关键词呢?

  如果是一句英文,“Marry had a little lamb”,每个词都是用空格分开的,里面有“marry”、“had”、“a”’、“little”、“lamb”这五个单词,但中文“玛丽有一只小绵羊”,因为没有分隔符(比如:空格)把每个词语分开,就有些麻烦了。

  最容易想到的分词方法就是查字典,把句子从左到右看一遍(程序员的说法叫做遍历),每个词语如果在字典中出现过就标记出来。

  拿“玛丽有一只小绵羊”举例,比如:“玛丽”这个词在字典中出现过,就把“玛丽”作为一个词语,“有”在词典中出现过,就把“有”作为一个词语,就这样一直做下去,最后可以分为“玛丽、有、一只、小绵羊”。

  这种最简单的方式可以解决一部分问题,但也有很大的问题,比如是“小”“绵羊”还是作为整体的“小绵羊”呢?

  从形式上看,词是字的组合,两个字组合在一起可能是一个词语,也可能不是,如果是词语的可能性(概率)大一些,我们就倾向于认为它们可以组成词语。

  这就像:天气预报说明天下雨的概率70%,不下雨的概率30%,我们就倾向于认为明天下雨。“小绵羊”一起出现的概率是70%,分开出现的概率是30%,我们就倾向于认为“小绵羊”是一个词语。

  我们可以对语料库中相邻出现的各个字的组合的次数进行统计,计算所有的字相邻出现的频率,当语料库足够大时,出现的频率越高,对应的概率也就越高。

  比如:“玛丽、有、一只、小绵羊”每一个词语出现的概率就大于“玛丽、有一、只、小、绵羊”等其他组合出现的概率,那么,我们就认为这个句子就按照“玛丽、有、一只、小绵羊”划分。

  对所有的文本分词之后会发现,“的”、“了”、“吗”、“也许”等没有很强实际意义的功能词有很多,相比之下“产品经理”、“搜索引擎”等词语更加具有实际意义的反而较少,后者更应该作为关键词。

  于是,我们使用把所有这些功能词存起来,作为停用词(stop word),如果一个词语出现在停用词中,就不能作为关键词。于是,我们就从分词结果中,获得了关键词。

  中文分词是几乎所有中文自然语言处理(Natural Language Processing)的基础,所以学术界和产业界对中文分词的技术研究已经很深入了,有高质量的商用分词库,也有像jieba这样的开源中文分词库,可以免费使用。

  需要注意的是:获取关键词不仅用在网页处理,而且也用在输入搜索框中。当我们搜索一句中文的时候,搜索引擎内部会进行分词、去掉停用词,获得关键词,之后再进行后续处理。

  当用户查询时,我们从头到尾,对每一篇文件扫描一遍,看哪个网页出现了用户查询的关键词,就把这个文件作为搜索结果。

  但问题是:动辄上亿的网页数量,从头到尾扫描一次就要花好长时间,根本无法满足正常的需求,更别说快速响应了。

  这样,当我们检索的关键词的时候,不需要遍历整个系统,只用查找对应的几个关键词,就可以找到需要的网页了!

  比如:用户搜索“关键词1”,那么搜索引擎只需要找到“关键词1”,就可以会直接找到“网页1,网页2,网页5,……网页L”。

  用户搜索“关键词1+关键词2”,那么搜索引擎需要找到“网页1,网页2,网页5,……网页L”,“网页3,网页4,网页5,……网页M”,找到同时出现的“网页3、网页5,……”。这样就大大加快了呈现排名的速度。

  更进一步,倒排索引中不仅仅记录了包含网页的ID,还会记录关键词出现的频率(term frequency)、每个关键词对应的文档频率(inverse document frequency),以及关键词出现在文件中的位置等信息,这些信息可以直接用在搜索结果排序上。

  至此,我们通过爬虫实现了信息获取、通过倒排索引实现了信息处理,接下来就是如何把这些信息展示给用户,其中最关键的是如何排序。

  对通用的搜索引擎而言,比如:百度,没有销量、评分这些选项,主要根据网页与搜索关键词的相关性、网页质量等排序。

  如果一个网页中关键词的出现很多次的话,我们通常会认为这个网页与搜索的关键词更匹配,搜索结果应该更靠前。

  我们用词频(Term Frequency, TF)表示关键词在一篇文章中出现的频率,代表网页和关键词的匹配程度。

  比如:我们在百度等搜索引擎上搜索“产品经理的工作”,关键词为“产品经理”,“工作”,“的”作为停用词,不出现在关键词中。

  在某一个网页上,总共有1000个词,其中“产品经理”出现了5次,“工作”出现了10次,“产品经理”的词频就是0.005,“工作”的词频就是0.01,两者相加,0.015就是这个网页和“产品经理的工作”的词频。

  这里有一个问题,相较“产品经理”,“工作” 这个词用的更多,在所有的网页中出现的概率也很高。搜索者可能希望查找产品经理相关的信息,按照TF排序,一些出现很多次“工作”这个关键字的网站,就可能排在前面,比如:《程序员的工作》、《老板的工作》等等,逆文本频率 (Inverse Document Frequency,IDF)应运而生。

  文件频率(Document Frequency)可以理解为关键词在所有网页中出现的频率,如果一个关键词在很多网页中都出现过,那么它的文件频率就很高。反之亦然,比如:“工作”的DF就高于“产品经理”。

  文件频率越高,这个词就越通用,有效的信息就越少,重要性应该更低。于是,我们把文件频率取个倒数,就形成了逆文本频率。

  二八定律在这里同样适用,20%的常用词占用了80%的篇幅,大多数关键词出现的频率都很低,这就造成了文件频率很小,而逆文本频率很大,不便于处理。于是我们取对数,便于计算(当然,这里也有其他数学和信息论上的考虑)。

  一个关键词在一个网页中出现的频率越高,这个关键词越重要,排名越靠前;在所有网页中出现的频率越高,这个关键词告诉我们的信息越少,排名应该更靠后。

  TF-IDF模型帮助我们解决了关键词与网页相关性的计算,仅仅使用TF-IDF模型,也可以搭建出效果不错的搜索引擎。

  当然,商用搜索引擎在TF-IDF的基础上,进行的一定的改进,比如:出现在文章开头和结尾的关键词更加重要,会根据词出现的位置调整相关度。但还是基于TF-IDF模型的调整。

  搜索结果排序,仅仅考虑相关性,搜索的结果并不是很好。总有某些网页来回地倒腾某些关键词,使自己的搜索排名靠前(当然,部分原因也来自某些搜索引擎更加喜欢推荐自家的东西,这个就不属于技术问题了)。

  引入网页质量,可以解决这个问题。排序的时候,不仅仅考虑相关性,还要考虑网页质量的高低,把质量高的网页放在前面,质量低的放在后面。

  解决这个问题的是两位Google的创始人。搜索引擎诞生之初,还是美国斯坦福大学研究生的佩奇 (Larry Page) 和布林 (Sergey Brin) 开始了对网页排序问题的研究。

  他们的借鉴了学术界评判学术论文重要性的通用方法,看论文的引用次数,引用的次数越高,论文的质量也就越高。他们想到网页的重要性也可以根据这种方法来评价。

  比如:下面这张(专业术语叫做拓扑),每一个节点都是一个网页,每条线都是两个网站之间的链接。

  这里有个问题:“当一个网页被排名靠前的网页链接时,其排名也应靠前”,一个网页的排名的过程需要用到排名的结果,这就变成了“先有鸡还是先有蛋”的问题了。

  最开始的时候,假设搜索的网页具有相同的PageRank值;根据初始值,开始第一轮的计算,按照链接数量和每个网页的PageRank值重新计算每一个网页的PageRank值;按照上一轮的结果,按照链接数量和每个网页的PageRank值重新计算每一个网页的PageRank值……

  佩奇在论文中指出:对网络中的3.22亿个链接进行递归计算,发现进行52次计算后可获得收敛稳定的PageRank值。

  当然,PageRank实际运行起来比这个更加复杂,上亿个网页的PageRank值计算量非常大,一个服务器根本无法完成,需要多台服务器实现分布式计算了。为此,Google甚至开发出了并行计算工具MapReduce来实现PageRank的计算!

  开头我们谈到TF-DIF的弊端的时候讲到:总有某些网页来回地倒腾某些关键词,使自己的搜索排名靠前。

  同样的,针对PageRank,也总有些网页来回地倒腾链接,使自己的搜索排名靠前。这就需要更多的算法,来识别这些“作弊”行为,我们在搜索引擎反作弊一节再来细讲。

  至此,使用TF-IDF计算网页与搜索内容的相关性,使用PageRank计算网页质量,可以很好地实现网页排序,一个基本的搜索引擎就搭建完成了。

  比较著名的是百度推出的竞价排名(其实最开始做竞价排名的不是百度,但百度做得太“成功”,也至于大家都认为是百度发明了竞价排名),竞价排名按照按网站出价高低决定排名先后。

  随着用户数据的积累,关键词和对应用户点击网页的行为数据也被搜索引擎记录下来了,搜索引擎可以根据用户的操作,不断改进自己的引擎。

  时至今日,商用搜索引擎的底层技术都差不了太多,用户数据记录成为了竞争的关键因素,这也是百度得以在国内的搜索引擎市场独占鳌头的重要原因——用户越多,搜索越准确,搜索越准确,用户越多!

  百度、Google等通用搜索引擎要做很多工作,相比之下,站内搜索就简单很多——数据量少、也基本都是整理过的结构化数据,比如:豆瓣读书,搜索的时候直接检索自己的数据库就可以了。

  虽然站内搜索的技术与通用搜索引擎有很多不一样的地方,但构建索引、相关性计算、质量计算、排序等流程基本一致。对于站内搜索的需求,同样存在开源的解决方案。

  业界两个最流行的开源搜索引擎——Solr和ElasticSearch,它们运行速度快、效果好、可靠性高、可扩展,最关键的是免费,足以满足一般的商业需求。

  对大多数公司而言,直接使用开源搜索引擎就可以了,不用重新造轮子,甚至,这些开源的解决方案比自己从头搭建的还更加稳定可靠。

  搜索引擎结果排名影响流量,流量影响利润,有利润的地方就有“商机”,SEO就是针对搜索引擎排名的“商机”。

  SEO(Search Engine Optimization)中文为搜索引擎优化——即利用搜索引擎的规则提高网站在搜索结果的排名。

  内部优化主要是优化网页内容,比如:提高关键词的数量,优化网页内部标签等。更有甚者,一些网页会使用非常小的字重复关键词,或者使用跟背景相同的颜色重复一些高流量词语,以实现较高的排名。

  外部优化主要优化链接,比如:添加友情链接、、贴吧、知道、百科等,这就产生了买卖链接的生意。

  可以看出:SEO的优化基本针对的就是TF-IDF和PageRank的排序方式,“投其所好”提高自己的排名。

  一些网页凭借SEO优化获得较高排名,本身可能质量不高、相关性也比较弱,这对那些老老实实提供优质内容的网站也是不公平的。

  从这个角度看,SEO就是针对搜索引擎的作弊,搜索引擎公司也不希望这样的事情发生——搜索不到需要的信息,用户也许直接就跑了!

  在2001年,敏感的站主和SEO优化者发现:有些网站的Google排名一夜之间就一落千里,有的网站排名则大幅上升,这个现象几乎是每月一次。

  后来,人们才知道,Google定期地更新它的反作弊算法,提高搜索质量,这给人的感觉就像跳舞一样,因此被SEO称为Google Dance。

  虽然各种作弊行为的方式各不相同,但目标一致,都是为了获得更高的排名,大体上还是有一定规律的。根据这些规律,搜索引擎常用的反作弊方式有两类:根据作弊特征的主动出击,建立“黑白名单”的被动防御。

  就像我们总是能从人群中一眼看到长得最特殊的人一样,一个出现大量重复关键词网页、一个出现大量链接的网页和一个普通的网页,在搜索引擎看来是很不一样的。

  通过计算网页的关键词数量特征、链接数量特征,可以很快发现那些“出格”的网站,搜索引擎就可以凭此调整排名。(前文所述的Google Dance就是根据作弊网站链接异常实现反作弊的。)

  搜索引擎会根据网站内容的质量、品牌、权威程度等信息建立一个白名单,比如:政府网站、一些大公司网站就在白名单中,这些网站的质量较高,排名也靠前,白名单链接的网站质量一般也会较高。

  与之对应的是黑名单,主要包括那些作弊严重的网站——比如:堆叠关键词、买卖链接的网站。如果同一个网站链向了多个黑名单中的网站,就可以把其认定为作弊的网站,降低排名。

  《猫鼠游戏》梦工厂出品的一部电影,根据真实经历改编,讲述了FBI探员与擅长伪造文件的罪犯之间进行一场场猫抓老鼠的故事。在搜索引擎中,也同样存在这样的猫鼠游戏。

  网站和商品本身的相关性和质量很难客观量化,根据关键词、销量、评价、点击、阅读量等较为客观的指标生成排序结果,甚至决定是否进入热搜榜、热销榜,仍然是当前搜索引擎的工作原理。

  面对刷单行为,平台经历了睁一只眼闭一只眼的无可奈何,到物流追踪、下单用户身份判断的演变,刷单成本也随之急剧上升,刷单行为虽然没有被杜绝,阜阳商标注册专用权,但也大幅下降。

  面对阅读量、点击造假等方式,社交媒体也经历着从听之任之到屏蔽刷排名的转变,中间虽然有收入的降低、用户活跃度下降、大V流失的风险,但也终究要踏上这一步。

  片以及部分文字资料来自网络,如有侵权,请联系删除:企慧网公司»竞价托管 一文了解搜索引擎的过去、现状和发展

  2018年马上就要过去了,在这一年里同样都是做百度竞价,为什么有的人赚了很多钱,有的人却一毛没赚?企慧网竞价托管告诉你,这80%的原因在于账户分析和百度竞价账户的优化!企慧网,专业工商代办14年,市场监督管理局批准正规财税公司,咨询热线:400-9697-618