设为首页收藏本站
开启辅助访问
切换到窄版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 898|回复: 0

距离的度量

[复制链接]
发表于 2012-5-7 09:30:51 | 显示全部楼层 |阅读模式
距离的度量在推荐系统、数据挖掘中起了很重要的作用。关于距离的度量有很多种方法。现在总结一下:
欧几里得距离
在N维欧几里得空间中,两个向量X,Y之间的欧几里得距离定义为:

在推荐系统中,两个向量的欧几里得距离越短通常说明他们的相似度越高。
这种计算方法的缺点就是,一个特征向量中的各个分量互相干扰,经常达不到很好的效果。
皮尔逊相关度

这个计算公式原来在高中就学过。MD。这种计算方法很明显,能消除上一种方法中各个分量相互干扰的问题。如果两个向量非常相似,那么他们在相似度空间中的坐标会拟合一条直线。
曼哈顿距离
曼哈顿距离定义为:向量的每个分量在其坐标轴上的投影距离之和。
例如在平面上,坐标(x1, y1)的点P1与坐标(x2, y2)的点P2的曼哈顿距离为:|x1 – x2| + |y1 – y2|.以此类推。
虽然这种方法用每个分量在坐标轴上的投影以后再计算和。但是我认为仍然不能消除第一种方法的困扰,不过我还没做实验。
Tanimoto系数
又称广义jaccard系数。

这种计算方法中的两个向量通常是布尔值。在表示是否、有无的向量相似度计算中有很好的效果。比如通过统计两个用户对某一类书的喜爱与否来对他们进行相似度计算的时候,这种方法很好。
余弦相似度

这种算法通常应用于文本匹配中。比如搜索引擎中对代表一个网页特征的词做成一个向量。再为这个向量分配一个权重向量。那么就能够用来计算两个网页之间的相似程度了。我感觉用到其他地方也不错呀。
以上各种方法各有优缺点,实际中应该几个同时用到吧。Over。

http://1.izone.sinaapp.com/?p=112
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|生物信息学论坛 ( 蜀ICP备09031721号  

GMT+8, 2017-2-22 05:34 , Processed in 0.161881 second(s), 22 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表