miccai2024投稿时间
随着技术的快速迭代,发达的机器翻译已经让普通的跨语言交流不再成为障碍。但涉及细分领域,仍有很多需求尚未被满足。比如专业门槛极高的学术论文翻译,对于专业术语、文化背景、论文句式和语法等多方面有着更特殊的要求,普通机翻往往难以胜任,困扰着许多希望能够在海外期刊发表论文的学生用户。
有没有可能开发一款专门用于论文翻译润色的应用,提升论文翻译专业度,以避免出现被审稿人退稿的窘境?澳门理工大学研二学生王荣胜和实验室的同学们在飞桨星河社区找到了解决方案。文心大模型对中文的优异理解能力,让中英文学术语言的翻译具备了坚实基础,而在文心大模型旗下 AI 编码产品——智能代码助手 Baidu Comate 的助力下,应用的开发效率得到了进一步提升。
Paperpolisher 论文助手在飞桨星河社区的应用界面
之所以要开发一款这样的应用,源自王荣胜自己的切身经历。
今年5月初,焦急等待中的王荣胜和实验室同学们终于收到了 MICCAI 2024投稿的回复。让他们尴尬的是,邮件中赫然写着“论文提交前,请注意多校对”的提示,并列举了用词、句式、语义甚至单词拼写方面的多处具体问题。“通常这样的论文会被要求进行小修,如果出现较多错误,审稿人则会认为作者专业能力不足。”王荣胜说。
MICCAI 2024审稿人在邮件回复中指出了许多论文行文问题
MICCAI 2024是医学图像分析领域国际公认的最具影响力的学术会议之一,其学术论文的投稿竞争也是异常激烈。据官方数据统计,只有11%的论文被接受,35%的论文在早期就会被拒绝。如果因为用语和写作问题而错过如此高级别学术论文发表的机会,对于王荣胜和同学们来说无疑是巨大的遗憾。而这次经历,更是让王荣胜敏锐地看到了这其中的机会。
“我们实验室的同学们,每年都要发表很多篇论文,其中大部分都需要翻译成英文。很多同学虽然学术能力很高,但毕竟英文不是母语,往往花费了大量时间,效果也并不好。”王荣胜说,“类似审稿人邮件中指出的问题,对于很多进行论文投稿的学生来说,并非仅靠仔细校对就可解决。”
论文翻译中常出现的各类问题
基于此,王荣胜和实验室同学们决定一起开发一款论文翻译润色工具。开发过程中,影响论文翻译质量的关键因素有两个:一是需要高质量的论文数据集供模型学习,这直接影响到输出答案的质量;二是需要更精准的中英文文本数据对,让模型充分理解论文翻译要点。最终,他们想到了借助百度文心大模型和智能代码助手 Baidu Comate 的帮助。
▎在论文数据集获取环节:
王荣胜和同学们选择了 CVPR 和 ICML 等多个顶级会议的历年论文作为基础数据,提取了论文的标题、摘要、引言、方法、实验、结果、讨论部分的文本内容。这些论文的英文文本内容整体表述水平极高,总计数量超过了3万篇。
“我们需要编写大量简单重复的代码来完成数据集收集,这个环节 Baidu Comate 帮我们有效提高了工作效率。”王荣胜介绍,通过 Baidu Comate 的实时续写、注释生成代码等功能的帮助,他们完成了大量论文原始数据爬虫、数据处理与清洗的代码,实现自动提取论文中的文本,从而完成了海量论文数据收集,减少了人工处理的工作量,整体工作提效50%左右。
王荣胜使用 Baidu Comate 实时续写功能进行编码提效
▎在中英文文本数据对的制作环节:
王荣胜和同学们选择使用中文能力更强的文心大模型,将收集来的英文语料做成中英文数据对。“作为原生的中文大模型,文心大模型不论是在对中文问题的理解、还是中文内容的生成上,都具有更高的准确度和流畅度,用文心大模型生成的中英文数据对的质量也更高。”王荣胜介绍。
这个过程中,Baidu Comate 的“Comate 开放平台”和“AutoWork”功能又进一步为他们减少了工作量。“Comate 开放平台”功能,是指 Baidu Comate 对第三方开发者工具、在线服务进行开放,支持知识扩展与能力扩展,让开发团队可以将自有或第三方能力、服务连接到编程现场,助力开发团队打造自己的定制化能力,建设更适合自己团队的研发助手。AutoWork 能够深入理解本地代码库和组织内部的私域知识,开发者只需要明确开发“目标”和“意图”,AutoWork 便能自动检索必要的背景知识、独立分析产品需求,匹配最佳解决方案并生成代码,快速实现开发需求。
在“Comate 开放平台”的知识中心挂载上文心大模型的 API 文档,王荣胜和同学们不再需要花费大量时间去翻阅文档、理解技术逻辑,只需通过“AutoWork”功能使用自然语言发出指令或提问,AutoWork 就能够直接根据 API 文档中的编码规范和要求,迅速生成对应代码,快速实现调用文心大模型进行数据翻译的开发需求。
使用 Comate 开放平台和 AutoWork 实现调用文心大模型进行翻译
最后,用生成好的文本数据对构建起知识库,使用检索增强技术即可进一步提升论文翻译及润色质量,产出高品质的英文论文。
目前,“Paperpolisher 论文助手”在飞桨星河社区应用中心正式上线。这款应用具备中英互译、英文长句简写和英文润色等功能,只需将论文一键上传,大模型就会自动生成符合英文论文行文规范的高质量的内容。
“飞桨星河社区是一个氛围非常友好的社区,大家会开源自己的项目研究,分享在社区供更多人一起去交流进步。”王荣胜介绍,他从大学开始研究学习人工智能和大模型技术,陆续在飞桨星河社区发布过与医疗听诊系统、交通信息检测系统等相关的应用。目前,进入飞桨星河社区主页,在应用中心搜索“Paperpolisher 论文助手”,即可体验这款论文翻译润色应用。