度小满金融NLP技术荣登微软MS MARCO 比赛榜首
近日,度小满金融科技的AI-NLP团队在微软举办的MS MARCO 比赛中的文档排序Document Ranking(文档排序)任务中刷新记录,超越了三星、微软、谷歌、斯坦福、清华大学等一众参赛者,荣登榜首(截至2021年3月12日)。
MS MARCO挑战赛。它是自然语言处理NLP领域的权威比赛,基于微软构建的大规模英文阅读理数据集 MARCO,需要参赛者为用户输入的问题找寻到最贴切、最需要的答案,并对答案进行排序。
度小满金融NLP团队首次提出了DML文本排序算法
MARCO数据集采用的是来自搜索引擎 BING 的用户真实搜索行为和点击日志,最大程度地模拟和还原了用户使用搜索引擎的真实场景,因此数据标注并不完全,这会直接影响模型的性能表现;而且MARCO数据集规模非常大,需要机器对多篇文档进行综合理解才能判断出答案。不过,令人没有想到的是度小满金融NLP团队提交的模型,不仅以0.416的eval分数大幅领先其他团队,还在第一名的位置维持了一个多月的时间。
据悉,度小满金融NLP团队首次提出了DML文本排序算法,通过自主研发的自适应预训练语言模型对query(用户搜索的真实问题)和document文本进行深度理解,利用了数十万数据来训练模型,经过召回、重排等多个阶段,给出最终排序。
度小满金融NLP技术为小微企业发展带来曙光
在近几年的政府工作报告中,多次提及要“帮助小微企业降低综合融资成本”。而通过公开数据我们发现,度小满金融针对小微企业主的年化贷款利率仅有3.65%。而全国银行业新发放普惠性小微贷款的利率平均达到5.93%(2020年数据)。2020年,度小满金融累积为小微企业主提供了3000亿元的无抵押信用贷款,人均放款额同比增加35%。
度小满金融在MS MARCO比赛中所运用到的数据挖掘、阅读理解等NLP技术,就已经在度小满金融的小微风控模型中投入了实际应用,通过对企业公章、征信报告等非结构化信息进行深度挖掘和理解,为风控模型提供了更丰富的特征和数据维度,从而可以更高效精准地识别风险因素,提升小微企业的融资效率,帮助其抵御黑产侵害。
在度小满的努力中,自然语言的奥秘被拆解,化成千行百业的智能化升级契机,小微企业可以在复杂变幻的商业环境中更快速地获得支持、寻觅新机。这或许可以回答很多人的疑问:为什么企业要跟学术机构一起在顶级赛事上同台竞技?
答案就在于,每一次技术领域的点滴突破,都有可能改变一些行业的既有规则,化不可能为可能,助力更多小微企业飞向更光明的未来。