用词向量得句向量的无监督方法

  • 时间:
  • 浏览:0
  • 来源:幸运快3_快3平台代理_幸运快3平台代理

       词向量技术是NLP领域饱含四种 基础的技术,词向量将有兩个词语转换为固定维度的向量,通过解决向量关系让NLP中语义计算的任务得以实现。

       人们歌词 都 儿都知道一句话是由有兩个个词语组成的,词向量技术之前 将单个词语转成固定维度的向量,没哟 为什么在么在得到多个词语组成的一句话的向量了?这是有兩个好间题,毕竟实际环境中都不可不可不都还可以 解决的文本是有兩个个一句话,而非有兩个个词语。为了让读者了解用词向量生成句向量的具体步骤,本文将介绍如下几种词向量生成句向量的无监督学习手段,它们分别是:累加法、平均法、TF-IDF加权平均法以及SIF嵌入法。

       累加法是得到一句话向量最简单的辦法 ,假设有原先一句文本:

There is no royal way to geometry.

——Euclid(欧几里得)

       这句是古希腊著名数学家欧几里得的名言,其中文意思是“通往几何并没哟 皇家大道”。NLP解决一段文本首先都不可不可不都还可以 将一段文本进行去停用词解决,英语中常见的停用词有be动词、介词、连词等,经过去停用词解决后上述文本可得下面的词语距离:

       {there, no, royal, way, geometry}

       本文采用相应的词向量词典(GoogleNews-vectors-negative100.bin)和python的gensim来得到词向量,可得上述单词的如下词向量(本文篇幅有限,用5维的词向量来演示)

There [ 0.1, 0.2, 0.3, 0.4, 0.5]
No [ 0.2, 0.3, 0.4, 0.5, 0.6]
Royal [ 0.3, 0.4, 0.5, 0.6, 0.7 ]
Way [ 0.4, 0.5, 0.6, 0.7, 0.8 ]
Geometry [0.5, 0.6, 0.7, 0.8, 0.9]

       累加法的做法是将一句话中所有非停用词的词向量叠加,可能一句话有n个非停用词,则一句话的词向量通过下面的手段获得:

       Vsentence = Vword1 + Vword2 + …… + Vwordn

       根据此辦法 都不可不可不都还可以 得到” There is no royal way to geometry.“ 的一句话向量为:

       Vsentence = Vthere + Vno + Vroyal + Vway + Vgeometry

                     = [ 0.1, 0.2, 0.3, 0.4, 0.5] + [ 0.2, 0.3, 0.4, 0.5, 0.6] + … + [0.5, 0.6, 0.7, 0.8, 0.9]

                     = [1.5, 2.0, 2.5, 3.0, 3.5]

       平均法和累计法辦法 这类 ,同样都不可不可不都还可以 将有兩个一句话中所有的非停用词向量叠加起来,但最后都不可不可不都还可以 加叠加起来向量处以非停用词的个数。一句话的词向量通过下面的手段获得:

       Vsentence = (Vword1 + Vword2 + …… + Vwordn) / n

       根据此辦法 都不可不可不都还可以 得到” There is no royal way to geometry.“ 的一句话向量为:

       Vsentence =( Vthere + Vno + Vroyal + Vway + Vgeometry) / 5

                     = ([ 0.1, 0.2, 0.3, 0.4, 0.5] + [ 0.2, 0.3, 0.4, 0.5, 0.6] + … + [0.5, 0.6, 0.7, 0.8, 0.9]) / 5

                     = [1.5, 2.0, 2.5, 3.0, 3.5] / 5

                     = [0.3, 0.4, 0.5, 0.6, 0.7]

       TF-IDF加权平均法都不可不可不都还可以 利用到TF-IDF技术,TF-IDF技术是有四种 常用的文本解决技术。TF-IDF模型常用评估有兩个词语对于有兩个文档的重要程度,老是应用于搜索技术和信息检索的领域。有兩个词语TF-IDF值与它在文档中出先频数成正比,与它在语料库中出先的频率成反比。TF-IDF由TF词频(Term Frequency)和IDF逆向文件频率(Inverse Document Frequency)相乘而得。对于词语ti来说:

       其中ni,j是词语ti在当时人处在的文档j中出先频数,Σknk,j是文档j中所有所有词语对应数

之和,|D|表示训练语料库中文档的总数,| j:ti∈dj|表示训练语料库蕴饱含词语ti的文档总数。

另外值得注意的是,可能词语ti没哟语料库中没哟 (1)式中| j:ti∈dj|为0,没哟 会意味着着 IDFj中分母为0,则无法计算出IDFj值。好多好多 有都不可不可不都还可以 改进为如下:

       TF-IDF加权法不仅都不可不可不都还可以 得到一句话中每个非停用词的词向量,还都不可不可不都还可以 得到一句话中每个非停用词的TFIDF值。每个非停用词的TF次要还好计算,IDF次要就要看用户使用哪个语料库,可能是做query检索,没哟 IDF次要对应的语料库之前 所有query一句话;可能是做文本自这类 聚类,没哟 IDF次要对应的语料库之前 全体待分类一句话。之前 通过如下手段得到TF-IDF加权的的一句话向量:

       Vsentence = TFIDFword1 * Vword1 + TFIDFword2 * Vword2 + …… + TFIDFwordn * Vwordn

       假设” There is no royal way to geometry.“ 是做query检索,没哟 计算IT-IDF对应的语料库之前 全体query一句话。若全体query一句话一共有100个; 其中100个query一句话饱含词语there, 65个query一句话饱含词语no, 7个query一句话饱含词语royal, 7有兩个query一句话饱含词语way, 9个quer一句话y饱含词语geometry。没哟 这句话中每个非停用词的TF-IDF数如下所示:

       There: 1/(1+1+1+1+1) * log(100/(1+100) = 0.098

       No: 1/(1+1+1+1+1) * log(100/(1+65) = 0.083

       Royal: 1/(1+1+1+1+1) * log(100/(1+7) = 0.1005

       Way: 1/(1+1+1+1+1) * log(100/(1+72) = 0.629

       Geometry: 1/(1+1+1+1+1) * log(100/(1+9) = 0.4100

       好多好多 有这句话的IT-IDF加权据向量为:

       Vsentence = TFIDFthere * Vthere + TFIDFno * Vno + …… + TFIDFgeometry * Vgeometry

                     =0.098[0.1,0.2,0.3,0.4,0.5]+0.083[0.2,0.3,0.4,0.5,0.6]+…+0.4100*[0.5,0.6,0.7,0.8,0.9]

                     = [0.147, 0.166, 1.2625 , 1.887, 1.61]

       ISF加权平均法和TF-IDF加权平均法这类 ,ISF加权计算来源于普林斯顿大学的论文A latent variable model approach to pmi-based word embeddings. ( https://openreview.net/forum?id=Sy K00v5xx),按照论文作者说法,此辦法 都不可不可不都还可以 很好的根据每个词词向量得到整个一句话的据向量。SIF嵌入法都不可不可不都还可以 利用主成分分析和每个词语的estimated probability, SIF嵌入法具体操作如下所示:



图1 SIF一句话向量嵌入生成



       首先整个算法的输入有:

       (1) 每个词语的词向量

       (2) 语料库中全体一句话

       (3) 可调参数a

       (4) 每个词语estimated probability

       整个算法的输出为:

       有兩个一句话向量

       算法的具体步骤是:

       (1) 得到初步句向量

       遍历语料库中每个一句话,假设当前一句话为s, 通过如下计算式子得到当前一句话s的初步句向量:

\[\frac{{\rm{1}}}{{\left| s \right|}}\sum\nolimits_{w \in s} {\frac{a}{{a + p\left( w \right)}}{v_w}} \]

       即加权求平均的过程,每个词语向量乘以系数a/(a+p(w)后叠加,最后叠加向量处以一句话s中词语的个数,对于可调参数a论文中作者使用0.001和0.0001有兩个。P(w)是词语在全体语料库中unigram probability,即词语w词频处以语料库所有词语词频之和。

       (2) 主成分计算

       全体初步句向量进行主成分分析,计算出全体初步句向量第一主成分u

       (3) 得到目标句向量

       通过如下计算时对初步句向量进行二次解决,得到目标句向量

       此论文作者也在Github上公开了源代码,感兴趣的读者都不可不可不都还可以 自行下载做实验,Github代码

       本文主要介绍了有四种 无监督手段来根据词向量生成有兩个一句话的句向量,除了无监督手段外,实际环境中还有用到监督辦法 来生成有兩个一句话向量,这类 训练有兩个CNN的文本分类器,取最后有兩个隐藏层的输出作为一句话向量,感兴趣的读者都不可不可不都还可以 google来进一步学习。

参考文献

       [1] Arora S, Liang Y, Ma T. A simple but tough-to-beat baseline for sentence embeddings[J]. 2016.

猜你喜欢

漁民撐嚴正執法 高喊「警察加油」

圖:南區漁民自發到香港仔警署慰問警察【大公報訊】記者劉昕報道:為表達對警方的敬意,南區漁民昨自發到香港仔警署慰問警察,並送上果籃及聯名感謝信。漁業界人士稱,數月來,因為酒樓生意

2020-01-24

卢德曼斯多夫VS洛克免费视频直播,卢德曼斯多夫VS洛克比赛集锦,卢德曼斯多夫VS洛克录像,卢德曼斯多夫VS洛克首发阵容

首页新闻视频直播数据APP懂球号直播君广告公司合作 者卢德曼斯多夫04-1422:00奥丁3-2已结束了了洛克直播君|分析|集锦暂无数据近期比赛伯恩茅斯英超3-1布莱顿阿斯顿

2020-01-23

ST拉万特河谷新闻,ST拉万特河谷赛程赛果,ST拉万特河谷数据统计,ST拉万特河谷阵容,ST拉万特河谷球员名单

首页新闻视频直播数据APP懂球号直播君广告企业企业合作ST拉万特河谷St.Michael/Lavanttal成立:国家:城市:主场:容纳:人电话:邮箱:地址:赛程<前10

2020-01-23

对话阿里张勇:双11不为交易数字,我十年从不做预期

阿里巴巴天猫双11于今日夜里正式打响。晚上22点28分,成交额突破1150亿元。与此同時 ,阿里巴巴CEO张勇接受了新浪科技采访。张勇指出,双11所以我走过10年,他对总交易

2020-01-23

V. Kernstock数据,V. Kernstock新闻,V. Kernstock视频,V. Kernstock身价

V.KernstockV.Kernstock俱乐部:特尔福斯国籍:奥地利身高:CM位置:前锋年龄:17岁体重:KG号码:号生日:5002-08-06惯用脚:相关队员前锋进球国籍

2020-01-23