【新闻晨报】上海本土AI企业深兰科技刷榜NLP国际顶会挑战赛,高比分夺魁
2023-12-06类似于体育界的奥运会,在国际顶会参赛也成为科研院所和科技巨头的科技成果“试金石”。
近日,中国团队再次刷新了人工智能自然语言处理领域国际顶级会议EMNLP 2023任务挑战赛的榜单。在本次“PragTag-2023”和“Violence Inciting Text Detection(VITD)”两项任务竞赛中,中国科研机构深兰科学院团队以“国产自研“多个预训练模型为基础,并结合多种自然语言处理技术在与弗吉尼亚大学、加利福尼亚大学等美国知名高校在内的来自全球数十个团队同场竞技中脱颖而出,夺得两项冠军。据悉,这也是深兰多次登顶该会议榜单。
其中,“PragTag-2023”任务竞赛的要求,是在论文评审过程中,对同行评审内容中的每一句话,按照摘要、优点、不足、建议、结构、其他这六个类别进行分类,以实现评审内容细粒度的自动分类,并通过整合各方的评审意见,为经验不足的评审人提供评议帮助,该项任务的主要难点在于可参考的数据量少,缺少统一的分类标准。
为此,深兰技术团队采用了两个出色的预训练模型“RoBERTa”和“DeBERTa”作为语言模型底座,在对其进行调整优化的基础上,同时融入了诸如注意力池化、最大池化、多折交叉验证、对抗训练等技术,并经过多组数据实验,通过使用多个模型投票得到结果的方式,解决了相关难题,赢得这项任务竞赛的冠军。
“Violence Inciting Text Detection(暴力煽动文本检测)”任务竞赛的内容,则是检测社交媒体上的文本是否包含暴力信息,并按照主动暴力、被动暴力、非暴力三个类别做分类,目的是对发生在孟加拉国和印度西孟加拉邦的各种形式的社区暴力行为进行分类甄别,以及阐明发生这一复杂现象的缘由,并阻止同类事件的再次发生,缓解社会上的暴力倾向。
该任务的难点主要在于文本语言的特性,因为孟加拉语虽然有2亿多的使用人口,但本身还是属于小语种,使用范围小,可参考的文本数据也少,同时孟加拉语有着句子普遍超长、文本差异小、语意语境难以辨别的特点,这就对计算机自然语言处理技术有着更高的要求。
为了解决以上难题,深兰技术团队采用了“分而治之”的策略。针对小语种问题,团队选用了“XLM-RoBERTa”和“banglabert”两个与孟加拉语的语言特点相适配的预训练模型;为了解决句子超长的问题,则采用了多种裁剪策略分别进行实验,不断优化语句裁剪效果;为了提升语言预训练模型的鲁棒性,则通过在模型中加入注意力池化、最大池化、多折交叉验证、对抗训练、伪标签、multi-sample dropout等技术,以增强模型承受故障和干扰的能力。
最终,深兰团队以0.004分的优势,战胜了包括弗吉尼亚大学、加利福尼亚大学、詹姆斯库克大学等美国知名高校在内的来自全球的27支参赛队伍,夺得该任务竞赛的冠军。
据悉,EMNLP与ACL、NAACL并称为三大全球自然语言处理领域顶级会议,由ACL旗下SIGDAT组织,在Google Scholar计算语言学刊物指标中排名第二,每年汇集全球顶尖实验室组队参加,共同探讨最新进展和成果。
-
【央视新闻】深兰熊猫公交亮相首部反映交通运输业史诗纪录片《交通中国》
媒体报道 -
央视《新闻联播》采访深兰科技陈海波:为可持续发展贡献中国科技力量
媒体报道 -
【上观新闻】长宁企业研发的这款“缺陷检测设备”为制造业生产装上“火眼金睛”!
媒体报道 -
【经济日报】深兰科技公司贯通基础研究与应用开发——人工智能赋能传统产业
媒体报道 -
【经济日报】深兰科技公司贯通基础研究与应用开发—— 人工智能赋能传统产业
媒体报道 -
【河南日报】深兰机器人商丘制造基地在商丘市梁园区投产
媒体报道 -
树洞救援武汉中心正式挂牌,深兰用平台和技术为公益赋能
公司新闻 -
深兰科技开启“海外名校产业博士计划”,董事长陈海波被聘为上海交通大学博士生导师
公司新闻 -
【人民日报】国内首份个人数字化产业报告发布
媒体报道 -
出席第三届“一带一路”峰会的斯里兰卡总统会见深兰科技董事副总裁刘园桂一行
公司新闻 -
【每日经济】专访深兰科技董事长陈海波:大模型如何助力人类从“碳基生命”走向“硅基生命”?
媒体报道 -
深兰科技科研团队6篇论文被国际医学信息科学顶尖学术会议收录
公司新闻 -
国家知识产权局公布《2023年度国家知识产权优势企业名单》,深兰科技成功入选
公司新闻 -
深兰科技董事长陈海波担任上海市科学技术协会常委
公司新闻 -
深兰科技500辆智能驾驶巴士订单落地 ,人民日报等多家央媒报道
媒体报道 -
泰国社会发展和人类安全部部长秘书率考察团到访深兰科技
公司新闻 -
深兰科技与一带一路(国际)研究院签署国际市场合作协议
公司新闻 -
【36氪】深兰科技发布国内首款个人记忆管理智能体——好记猫App
媒体报道