机器学习中的度量——相似度

  • 时间:
  • 浏览:1
  • 来源:幸运快3_快3平台代理_幸运快3平台代理

      机器学习是时下流行AI技术中另另四个多一阵一阵要的方向,无论是有监督学习还是无监督学习都使用各种“度量”来得到不同样本数据的差异度机会不同样本数据的之类度。良好的“度量”都需用显著提高算法的分类或预测的准确率,本文中将介绍机器学习中各种“度量”,“度量”主要由三种 ,分别为距离、之类度和相关系数,距离的研究主体一般是线性空间中点;而之类度研究主体是线性空间中向量;相关系数研究主体主也不分布数据。本文主要介绍之类度。

      Jaccard之类度,机会叫做并交比。是用于比较样本集的之类性与多样性的统计量。雅卡尔系数才能量度有限样本集合的之类度,其定义为另另四个多集合交集大小与并集大小之间的比例:

      设A和B是另另四个多集合,则A和B的Jaccard之类度为:

\[ sim_{Jaccard}(A,B) = sim_{Jaccard}(B,A)=\frac{{\left| {A \cap B} \right|}}{{\left| {A \cup B} \right|}} = \frac{{\left| {A \cap B} \right|}}{{\left| A \right| + \left| B \right| - \left| {A \cap B} \right|}} \]

      若集合A和B完全一样则定义J(A,B)=1,显示0<=J(A,B)<=1



图1 集合A和集合B的交集和并集

      下面通过简单例子来说明Jaccard之类度如何计算的,设

      集合A = {“A”,“B”, “C”,“D“}

      集合B = {“A”,“B”, “E”,F“, “G”}

      A和B的并集A∪B = {“A”,“B”, “C”,“D“, “E”,“F”, “G”}

      A和B的交集A∩B = {“A”, “B” }

      也不|A∪B| = 7, | A∩B| =2

      也不A和B的Jaccard之类度为2/7

      余弦之类度通过测量另另四个多向量内积空间的夹角的余弦值来度量它们之间的之类性。0度角的余弦值是1,而也不任何淬硬层 的余弦值时会大于1。用向量空间中另另四个多向量夹角的余弦值作为衡量另另四个多个体间差异的大小的度量,也也不衡量另另四个多向量在方向上的差别。

      机会向量a = (a1, a2,..., an) 和向量b = (b1, b2, ..., bn) 是另另四个多欧式空间点,则两向量的点积为a⋅b=|a|⋅|b|⋅cos⁡⟨a,b⟩,向量时会有方向的量,cos⁡⟨a,b⟩也不a和b夹角的余弦,也不另另四个多向量a和b的余弦之类度计算公式为:

\[\begin{array}{l} si{m_{Cos}}\left( {{\bf{a}},{\bf{b}}} \right){\rm{ = }}si{m_{Cos}}\left( {{\bf{a}},{\bf{b}}} \right) = \frac{{{\bf{a}} \cdot {\bf{b}}}}{{{{\left\| {\bf{a}} \right\|}_2}{{\left\| {\bf{b}} \right\|}_2}}} \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \; = \frac{{{a_1}{b_1} + {a_2}{b_2} + \cdots + {a_n}{b_n}}}{{\sqrt {a_1^2 + a_2^2 + \cdots + a_n^2} \sqrt {b_1^2 + b_2^2 + \cdots + b_n^2} }} \\ \end{array}\]

      比如向量x=(0,1,2)和y=(1,0,2),这样它们余弦距离为

\[\cos \left( {x,y} \right) = \frac{{0 \times 1 + 1 \times 0 + 2 \times 2}}{{\sqrt {{0^2} + {1^2} + {2^2}} \cdot \sqrt {{1^2} + {0^2} + 2} }} = \frac{4}{5}\]

      余弦之类度通常用于信息检索中。在信息检索领域中,每个词条拥有不同的度,另另四个多文档是由另另四个多由有权值的型态向量表示的,权值的计算取决于词条在该文档中跳出的频率。余弦之类度否则都需用给出两篇文档其主题方面的之类度。另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,用它来衡量集群结构的凝聚力。

猜你喜欢

浅析,百度SEO,无外链排名的可行性

声明:本文来自于微信公众号蝙蝠侠IT(ID:batmanit),作者:蝙蝠侠IT,授权站长之家转载发布。2019年,而且过半,在近两年中,百度搜索指在巨大变化,用“翻天覆地”形

2019-11-21

海尔 Aphro T8

完整参数基本参数场景功能游戏娱乐,商务办公系列阿芙罗产品类型一体机平台Intel平台操作系统Windows10出理 器CPU类型Intel奔腾\赛扬CPU型号N3700CPU

2019-11-21

男子学抖音“撩妹”将对方推倒强吻,留纸条求原谅

IT之家9月30日消息短视频如今成为所以人平时的消遣渠道,所以视频前会拍摄者故意“演戏”博取他人一笑而已,但他们却信以为真。据正义网报道,近日浙江一小伙就可能性学抖音短视频“撩

2019-11-21

王牌战争代号英雄t91介绍 t91属性详解

更新时间:2018-10-1011:11:01来源:斗蟹游戏编辑:行虾仗义 【斗蟹攻略】不要 不要 不要 不要 有小伙伴还我不知道王牌战争代号英雄t91介绍t91

2019-11-21

圣巴特里CY新闻,圣巴特里CY赛程赛果,圣巴特里CY数据统计,圣巴特里CY阵容,圣巴特里CY球员名单

首页新闻视频直播数据APP懂球号广告合作协议圣巴特里CYStPatricksCY成立:国家:城市:主场:容纳:人电话:邮箱:地址:赛程<前10场比赛|后10场比赛>

2019-11-21