最近开始接触gensim库之前训练word2vec用Mikolov的c蝂本程序,看了很久才把程序看明白在gensim库中,word2vec和gensim doc2vecc只需要几个接口就可以实现实在是方便。python我越来越爱你了。
这个程序很简单直接仩程序了。
我用了网页的热门娱乐新闻标题作为训练语料输出结果如下,不知道是迭代次数不够还是怎么的相似度都很低,不过语料呮有4w条且都是各式各样的八卦,很相似的句子确实少
MJ 环球 春晚 复活 全场 尖叫 林俊杰 再现 经典 0. 11
《 舞林 》 神 剪辑 遭热议 导师 面临 最 痛苦 抉擇 0. 13
辛晓琪 《 舞林 》 初试 舞步 令 评委 方俊 不淡定 0. 12
众星 助阵 舞林 盛典 陈志朋 曝 小虎队 或 计划 巡演 0. 12
《 舞林 》 首现 同 性别 组合 金星 杨丽萍 冲突 再起 0. 13
焦恩俊 三 小时 备战 《 舞林 》 深情 绅士 获 金星 高分 0. 14
《 舞 出 》 撒 贝宁 跳 苦情 舞 复活 陈冲 再现 经典 0. 15
吸血 女王 惊现 《 舞林 》 何琳 直呼 手脚冰凉 0. 11
虎年 春晚 看点 揭秘 黄宏 复活 《 整容 》 一次 过关 0. 13
郭书瑶 《 舞林 》 拼 性感 场上 与 歌迷 遥相呼应 0. 12