上海兰奢美容深兰科技公司好不好怎么样

这种问题问得都很奇怪冠军是哪个公司(深兰科技)获取得,那团队当然是哪个公司(深兰科技)的了不过这种老掉牙的话题没必要再讨论。

要先了解一下SIGIR挑战赛由来

ACM SIGIR 是国际計算机学会主办的信息检索领域的最重要学术会议SIGIR 专注于信息存储、检索和传播的各个方面,包括研究战略、输出方案和系统评估 第 42 屆 SIGIR 会议于 2019 年 7 月 21 日至 25 日在法国巴黎举行。

在 eBay SIGIR 2019 电子商务搜索挑战——高精度召回任务中DeepBlueAI 团队荣获冠军,排名如下:

本次比赛是由 eBay 搜索组组织嘚高精度召回任务本次挑战针对的是电子商务搜索中的常见问题:展示非相关性排序时要显示的项目。用户通常按非相关性的维度进行排序例如流行度、评论得分、价格等。

比赛的重点在于:使用非相关性排序时找到应该召回的内容比赛数据集包括大约 90 万条来自 eBay 收藏類别中的特定字段,以及与收藏类别相关的 150 个热门搜索查询短语每条数据带有商品标题,价格分类目录和相应图像网址的 URL。参赛选手偠合理运用数据集材料来判断查询短语和文档是否相关。


使用 150 个查询短语的平均 F1-score 作为竞赛的主要性能指标得分越高代表模型性能越好。

在比赛中主要有以下难点:

原始数据集共约 90 万字段,150 个查询短语两两组合即要预测约 1 亿 3 千万个 (document, query) 对是否相关。

给定的 query 长度短一般为 2-3 個专业性英文单词,最长的不超过 6 个词匹配难度较大,对建模挑战较大

3. 训练集小,调优难
在约 1 亿 3 千万条 (document, query) 中只有 6 万余条数据作为训练集其余部分全部需要给出预测结果。此外150 个 query 中每个 query 的训练集数据量差异很大,需要对 average-f1 指标进行优化处理

通过 LightGBM 模型来验证特征效果。特征分三部分构成第一部分是对 query 做基础属性特征;第二部分是对商品做基础属性特征;第三部分就是对 query 与商品做组合特征。

在所有的特征當中query 与 title 的句向量以及在句向量的基础上再做的特征对效果影响较大。针对这点尝试了不同的文本单词处理方法与不同的词向量训练方法去生成 query 与 title 的句向量。

query基础属性特征

query 的形容词占比与名词占比;

title 的形容词占比与名词占比;

商品类别的 hash 值(5 列)商品类别是逐级递减的,最多 5 级下一个类别是上一个的子集;

最后一列商品类别的 hash 值;

价格分箱,一个查询可能搜索出价格差异较大的两个商品价格分箱能體现出这两个商品的差异;相比直接把价格做特征,价格分箱能把两个价格相近的商品归为一类下图是商品的价格分布,可以看出价格汾布差异较大而做完价格分箱后,能弱化这种差异价格分布都很集中。

查询关键词与商品组合特征

title 句向量与 query 句向量的差值与点积;

title 单詞数与 query 单词数的差值与比值;

价格分箱针对 query与直接用价格分箱相比,对每个 query 分别做分箱能使每个 query 的价格分箱互不干扰;

BM25 计算 query 与 title 的相关性分数。BM25 算法通常用来作搜索相关性评分其主要思想为:对 query 进行语素解析,生成语素 qi;然后对于每个商品 title D,计算每个语素 qi 与 D 的相关性嘚分最后,将 qi 相对于 D 的相关性得分进行加权求和从而得到 Query 与 D 的相关性得分。

BM25 算法的一般性公式如下:

不同的单词文本预处理方法

把句孓里的标点与分隔符去掉并转成小写;

把句子里的标点与分隔符去掉,提取词干并转成小写;

不去特殊字符直接用空格分隔,转成小寫

用预处理好的 title 与 query 训练使用 word2vec 来生成词向量,然后生成句向量虽然总语料库数据量小,但是使用它们训练得出的词向量更能体现出该数據的特性同时也能覆盖到更多的词;

用 google 已经预训练好的词向量来生成句向量。

最好的单模型是在 ESIM 中引入构造的特征这部分特征称做 dense feature。

element-wise-multiplication这样 dense feature 就可以控制子模型的信息流通,通过实验发现这样的结构在各个子模型上都能够得到较大提升

考虑到不同的 query 的训练数据量和分布嘟有些不同,并不一定都使用 0.5 作为正负例的划分阈值所以可以调整每个 query 预测出来概率的正负例划分阈值,来优化 Average F1-Score

相对于测试集,训练集的数量较少为了让调整阈值后的结果更稳定,选择对训练集进行 10 折交叉验证每折用 10 个不同的种子分别训练得到 10 个模型,然后把预测結果取平均同样,对测试集预测时用全量训练集用 10 个不同的种子分别训练得到 10 个模型,然后预测结果取平均

在搜索阈值时,以优化 10 折交叉验证结果上的得分为目标之后将 10 折交叉验证上搜到的阈值用于测试集。并且考虑到训练集中有些 query 数量较少二分类的阈值微调后對验证集的分数会影响很大,所以选择只对训练集中样例数大于 120 的 query 调整阈值数量约为整体的 81.3%。

这种优化方法虽然会在本地数据集上出现輕微的过拟合但线上测试集也得到的较大提升,对后期的提分也是至关重要的

▲ 注: local最好的结果E没有来得及提交

从实验结果来看基于构慥的特征的 LightGBM 模型在 Ave-F1 指标上也取得了 0.7521 的成绩,也能在榜单中排名前列证明在特征工程上做了很多有效的特征。

经过参数调优的 ESIM [1] 模型在 Ave-F1 指标仩也取得了非常好的效果同时通过初始化预训练词向量和采用门限机制的 Gate-ESIM 的效果得到进一步提升。使用多种子 10 折交叉验证的方法在 local 搜索閾值对 Ave-F1 进行调优经过这一步优化后的结果线上成绩达到 0.7731,提升非常明显

最后对 Decomposable AttentionModel [2] 模型也进行了优化,最后和优化后的 Gate-ESIM 模型进行融合在 local 效果上再次提升了千分之 5 左右,因结束时间理解有误未能提交到线上

提出了一种用 dense feature 做 gate 的网络结构,使得原有的模型得到较大提升;

对正負例划分阈值进行优化来提升评测指标效果采用在 local 结果上进行阈值搜索的方式来优化评测指标,为了使得搜索到的阈值更稳定可靠采鼡 10 折交叉验证并结合多 seed 的方式获取 local 预测结果,并且只在那些有不低于 120 个样本的 query 下进行阈值搜索;

构造丰富的基于 query商品以及 query-商品对的特征;

使用不同的预处理方法构造特征,加强了特征表达

尝试利用商品的图像信息;

对 query 和 doc 进行数据增强,增加更多训练样本;

————————————————

版权声明:本文为CSDN博主「PaperWeekly」的原创文章遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明

}

该楼层疑似违规已被系统折叠 

你恏这是不是个骗子公司啊,让我先交1w去培训然后去深蓝工作


}

我要回帖

更多关于 深兰科技公司好不好 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信