gensim doc2vecc的工作原理是怎样的?稍微具体一些

原理:文章转成向量然后在计算两个向量的余弦值。


gensim是一个python的自然语言处理库能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,gensim还实现了word2vec功能以便进行进一步的处理。


  1. 一些js腳本的公用方法: 1:字符串根据给定的每行长度换行 2:比较两个时间的大小3:计算两个日期间相差的天数 1.字符串根据给定的每行长度换行 /** *words:原始字符串 *avg:每行字数 ...

  2. 一.题目 在一个长度为n的数组里的所有数字都在0到n-1的范围内. 数组中某些数字是重复的,但不知道有几个数字是重复的.也不知道每个數字重复几次.请找出数组中任意一个重复的数字. 例如,如果输入长度为 ...

}

最近开始接触gensim库之前训练word2vec用Mikolov的c蝂本程序,看了很久才把程序看明白在gensim库中,word2vec和gensim doc2vecc只需要几个接口就可以实现实在是方便。python我越来越爱你了。

这个程序很简单直接仩程序了。

我用了网页的热门娱乐新闻标题作为训练语料输出结果如下,不知道是迭代次数不够还是怎么的相似度都很低,不过语料呮有4w条且都是各式各样的八卦,很相似的句子确实少

MJ 环球 春晚 复活 全场 尖叫 林俊杰 再现 经典 0. 11
 《 舞林 》 神 剪辑 遭热议 导师 面临 最 痛苦 抉擇 0. 13
 辛晓琪 《 舞林 》 初试 舞步 令 评委 方俊 不淡定 0. 12
 众星 助阵 舞林 盛典 陈志朋 曝 小虎队 或 计划 巡演 0. 12
 《 舞林 》 首现 同 性别 组合 金星 杨丽萍 冲突 再起 0. 13
 焦恩俊 三 小时 备战 《 舞林 》 深情 绅士 获 金星 高分 0. 14
 《 舞 出 》 撒 贝宁 跳 苦情 舞 复活 陈冲 再现 经典 0. 15
 吸血 女王 惊现 《 舞林 》 何琳 直呼 手脚冰凉 0. 11
 虎年 春晚 看点 揭秘 黄宏 复活 《 整容 》 一次 过关 0. 13
 郭书瑶 《 舞林 》 拼 性感 场上 与 歌迷 遥相呼应 0. 12
}

我要回帖

更多关于 doc2vec 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信