排九游戏求介绍绍详细内容

酷勤网 C 程序员的那点事!
当前位置: >
浏览次数:次
如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化。相关内容推荐最常见的两块就是&关联推荐&和&相关内容推荐&,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系,之前有相关的文章介绍&&;关联推荐是基于用户行为分析的推荐,而相关内容推荐是基于内容固有特征的推荐,只与内容本身有关,与用户的行为完全无关,所以相关内容推荐的模型是一种&冷启动&的算法,不需要任何历史浏览访问数据的支持。
内容固有属性
  相关内容推荐因为完全不借助用户浏览行为的数据,所以底层数据不依赖于网站的点击流日志,唯一的基础数据就是内容的固有属性及完整信息。我们以豆瓣网的几大块内容为例来看看对于这些内容一般包含哪些固有属性:
书名、作者、出版时间、出版社、分类、标签
专辑名、歌手、发行时间、发行方、风格流派、标签
电影名称、导演、演员、上映时间、制片方、类型、标签
  豆瓣很多地方都使用了&标签&这个词,用贴标签的形式来完成内容的分类和标识,但其实标签又分为很多种,有些标签是在内容生成时就被贴上的,有些可能是后续用户贴上去的,而且豆瓣一般为内容和标签定义了原始分类,如书籍分为文学、流行、文化&&既然分类和标签内容源生就带有,那同样可以作为内容的固有属性。
  还需要说明的是,这里不涉及文本挖掘和字符切分模糊匹配等问题,因此内容的标题、简介和全文不参与文本相似度的分析,虽然这些可能在构建完整的相关内容模型中不可缺少,但这里只考虑一些固有属性是否相同实现简单应用。基于上述豆瓣几类内容的属性特征,选择和整理适合分析的内容属性如下:
  &作者&就是指内容的创造者,&来源&指内容的发布方或获取渠道,&分类&为内容归属的类别,&标签&可以包含对内容的各类描述信息和关键词等。这里为了能够尽可能清晰地描述整个分析模型和思路只选取了大部分内容都包含的一些属性,如果要构建更加高效的相关内容分析模型,需要更完整的内容属性,可以根据自身内容的特征进行属性的定义和选取。
KNN算法及应用
  KNN(K-Nearest Neighbor algorithm),K最近邻算法,通过计算样本个体间的距离或者相似度寻找与每个样本个体最相近的K个个体,算法的时间复杂度跟样本的个数直接相关,需要完成一次两两比较的过程。KNN一般被用于分类算法,在给定分类规则的训练集的基础上对总体的样本进行分类,是一种监督学习(Supervised learning)方法。
  这里我们不用KNN来实现分类,我们使用KNN最原始的算法思路,即为每个内容寻找K个与其最相似的内容,并推荐给用户。相当于每个内容之间都会完成一次两两比较的过程,如果你的网站有n个内容,那么算法的时间复杂度为Cn2,即n(n-1)/2。但是用内容固有属性有一个好处就是因为固有属性一旦创建后基本保持不变,因此算法输出的数据一旦计算好之后不需要重复计算去刷新,也就是对于网站内容而言,原有内容的数据在首次初始化之后可以不断重复使用,只要更新新增内容的数据就可以,数据的统计计算可以使用增量更新的形式,这样可以有效地减少服务器的计算压力。
相关内容模型
  有了基础数据和算法的支持,我们就可以创建数据模型了。先看下基础数据的类型,作者、分类、来源和标签都是字符型,其中作者、分类、来源基本可以当做是单个值的属性,标签一般包含多个值。首先由于都是字符可以确定属性之间相似性的判定只能通过&是否相同&,无法体现数值上的差异,所以对于作者、分类、来源这几个单值属性而言,比较的结果就是一个布尔型的度量,相同或者不相同;对于标签这个多值属性可以考虑使用Jaccard相关系数,但因为每个内容标签的个数存在较大差异,使用验证后的结果并不理想,所以不考虑使用(当然,如果内容的标签个数比较固定,Jaccard相关系数是有效的)。因此,直接创建加权相似度模型如下,首先是标签的相似度分值设定:
相同标签数
相似度分值
  再结合作者、分类和来源,通过加权设定总体的相似度分值:
相同时分值
不同时分值
加权分值分布
  将所有属性加权相似度分值的结果相加应该分布在[0,100],分值越高说明内容间的相似度越高。对于这种简单的加权相似度评分模型,估计又有很多人要问权重是怎么确定的,确实,这里的权重并没有通过任何定量分析模型的方法去计算,只是简单的经验估计,但估计的过程经过反复地调整和优化,也就是不断地尝试调整各属性的权重系数并输出结果,抽样检验结果是否符合预期、是否有提升优化的空间。
  基于上述内容间相似度的计算结果,套用KNN的原理实现相关内容推荐就异常简单了,只要根据每个内容与之比较的所有内容的相似度分值降序排列取前K个内容作为该内容的最相关内容推荐给用户就可以了。当然中间可能会涉及相同相似度分值的内容如何排序的问题(因为模型的关系分值分布可能不会很离散),建议如果相似度分值相同使用随机排序,以保证推荐结果有一定的变化,均匀内容的曝光。
  好了,所有的分析流程介绍完了,好像跟前一篇的完全没有关系,其实距离和相似度度量是KNN的基础算法,因为KNN的个体相似度或邻近的距离都会选择距离度量和相似度度量中的某种方法进行计算,但这里考虑到了现实的数据情况和应用环境,并不是KNN就一定要硬套欧氏距离,其实换一种简单的方法可能反而更加适合整个模型,而且模型的最终效果可能会更理想。所以一切的数据挖掘算法的选择和使用都是基于数据模型的有效性和输出结果的效果来决定的,并不是简单的算法效果就一定不好,而高级复杂的算法一定更加有效。对了,如果你已经做了相关内容推荐,那么这篇文章里面介绍的一些方法将是检验推荐效果的一个很好的参考。
& 相关主题:
本文来源:扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
基于内容的新闻推荐系统.doc
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口> 网站如何向用户推荐其感兴趣的内容?
网站如何向用户推荐其感兴趣的内容?
内容推荐,似乎对于网站而言是个有点技术难度的功能实现,目前大部分网站可能都会提供热门内容排行的展示,这可以认为是最简单的推荐,因为只需要对内容的浏览量、下载量、评论量等进行排序即可,所以对于后台的计算不会造成太大的压力。但同样不需要高深的算法和复杂的数据处理流程,我们在内容推荐上可以做得更多,更有创意,当然也可能更具效益。
为什么要推荐
首先再来明确下为什么要进行内容推荐?我的理解是如果用户有特定需求,并且用户对自身的需求十分明确,那么用户会利用网站上可以使用的途径来寻找自己需要的信息,只要你的网站提供足够高效的渠道。而当用户对自身的需求并没有那么明确,或者用户从没发觉你的网站上存在一些会如此让他着迷的东西,那么显然用户很难发现这些内容,这个时候就需要一个有效的内容推荐途径来帮助用户了,给用户装上一个智能导航系统。
但往往我们很容易就陷入了这样一个思维怪圈:向用户推荐与用户的兴趣相关的内容,这确实是一个很棒的个性化服务的应用,我之前也写过此类的文章&&向上营销、交叉营销与关联推荐;但这个毕竟实现起来需要一定的成本,而且如果把推荐限制在这个个性化的层面,容易让自己走入死胡同,或许不需要这么复杂,我们可以找到其他有效的推荐方法,而且可能对于中小网站其效果也不会比基于高级算法的个性化推荐功能会差。
选择简单有效的推荐方法
这里要介绍的推荐功能基于一个简单的实现方式,即在首页或者网站的侧边栏的某个模块中开辟一块小区域来放些你想要推荐的内容,正如我的博客首页导航栏正下方的滚动内容推荐。其实这个推荐的思维形式很简单,就是不要忽视用户的眼光和选择,把用户认为有趣的内容推荐给其他的用户。
首先要认识到的是那些网站曝光度很高的内容可能不需要你做另外的推荐,这也是这里要介绍的这个推荐方法与常见的热门推荐间的最大不同。因为用户能够找到途径去发现这些内容,可以看一下Google的网站管理员工具上对于&指向网站的链接&排名:
再看一下Google Analytics的Top Landing Pages的排名:
很显然用户可以找到一些渠道进入这些页面来查看内容,所以我们真的需要推荐的不是这些。那些转化率高(或者Avg. Time on Page)高的,但曝光度不够(用户找不到,或者没有意识到)的内容才是我们推荐的重点。因为它们拥有较高的转化率,能够直接帮你实现网站的目标,同时考虑较低的Bounce Rate或者较高的停留时间说明这些内容对用户具有一定的吸引力,这也是它们值得被推荐的理由,我们可以把它们展示到显眼的位置。
好的,既然我们已经有了思路,接下去就是寻找上面所说的值得推荐的内容了。这里不得不介绍下Google Analytics推出的新功能&&Weighted Sort,进入Content模块的Top Content,先点击$ Index排序,就会出现一个Weighted Sort的勾选框,勾上它预期的效果就出来了:
接下去就是选择那些Unique Pageviews相对较低的内容放到推荐模块,这个工作就完成了,是不是很简单。
当然还有其它的方法,比如如果你已经将数据导出到Excel,那么在上面进行自定义排序会是个好方法:根据Conversion Rate、Avg. Time on Page降序,再按照Pageviews升序后,也就你就看到你该推荐的内容了。如果你的数据存在了数据仓库,那就更方便了,SQL强大的Order By功能就可以发挥作用了。
好了,我已经把自己的分析结果应用到我的博客首页面内容滚动展示模块的,你也可以尝试下这个推荐方法,也许会带来不错的效果。您所在的位置: &
1.1.2 基于内容的推荐
1.1.2 基于内容的推荐
人民邮电出版社
《推荐系统》本书全面阐述了开发最先进推荐系统的方法,其中呈现了许多经典算法,并讨论了如何衡量推荐系统的有效性。书中内容分为基本概念和最新进展两部分:前者涉及协同推荐、基于内容的推荐、基于知识的推荐、混合推荐方法,推荐系统的解释、评估推荐系统和实例分析;后者包括针对推荐系统的攻击、在线消费决策、推荐系统和下一代互联网以及普适环境中的推荐。本节为大家介绍基于内容的推荐。
1.1.2 基于内容的推荐
一般来说,推荐系统有两个目的。一方面,推荐系统被用于激发用户去做某件事情,比如购买一本书或观赏一部电影;另一方面,推荐系统也可以被看做是解决信息过载的工具,因为系统的目标是从大集合里选择最感兴趣的物品。因此,推荐系统研究也深深植根于信息检索和信息过滤领域。这些领域主要强调的是区分相关和不相关的文档(相对于传统电子商务领域的书或数码相机等实物而言)。这些领域的许多技术利用了源于文档内容的信息进行排名。有关基于内容推荐 的章节会讨论这些技术。
基于内容推荐的核心是能够得到物品的描述(不管是人工生成还是自动抽取的)和这些特征的重要记录。如果我们再考虑书店的例子,这些特征可能包括体裁、主题或作者。与物品的描述类似,用户记录也需要自动抽取或&学习&,方法是分析用户的行为和反馈,或者直接询问用户的兴趣和偏好。
在基于内容的推荐中,必须回答如下问题。
系统如何自动获取并持续改进用户记录?
如何决定哪个物品匹配或者至少能接近、符合用户的兴趣?
什么技术能自动抽取或学习物品的描述,从而减少人工标注?
与上面提到的不涉及内容的方法相比,基于内容的推荐有两大优点。首先,不需要大规模用户就可以达到适度的推荐精准度。其次,一旦得到物品的属性就能立刻推荐新物品。在某些领域,这样的物品描述能够自动抽取(比如从文本文档中抽取)或者可以直接取自物品的电子目录。在很多领域,更为主观的物品特征(比如&好用&或&设计精妙&)可能对推荐过程更有用。这些特征通常很难自动获取,必须由人工输入这些信息,而这个过程不仅投入大而且容易出错。
&【责任编辑: TEL:(010)】&&&&&&
关于的更多文章
HTML 语言是当今网页设计的主流表现语言,CSS 是当今网页设计的
本书描述了黑客用默默无闻的行动为数字世界照亮了一条道路的故事。
HTML 语言是当今网页设计的主流表现语言,CSS 是当今
Android 自2007 年诞生之日起,在经过过去几年的发展
Linux是当今的主要Internet服务器平台。系统管理员和W
网络和计算机安全问题已经成为政府、企业必须面对的现实问题。应对安全威胁的途径之一就是采用渗透测试的方法模拟黑客的攻击,找
51CTO旗下网站}

我要回帖

更多关于 求生之路1人物介绍 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信