文章主要内容总结
本文围绕17个参数不超过90亿的大型语言模型(LLMs)在英语、德语、意大利语和瑞典语这四种语言的多语言语法错误纠正(GEC)任务中的性能展开研究,旨在探索单个模型处理多种语言语法纠错的可行性,并对不同模型的表现进行对比分析。
关键研究内容
- 数据集与模型
- 数据集:采用MultiGED数据集,涵盖英、德、意、瑞典四种语言的句子,经预处理后转化为句子级语法正确性标注数据。
- 模型:选取17个LLMs,参数规模从17亿到90亿不等,包括Gemma、Qwen、Llama等,其中部分模型(如Karen)针对GEC任务进行了微调。
- 评估指标与方法
- 指标:使用LanguageTool评估语法正确性(LT分数),通过BERTScore、BLEURT等评估语义相似度,采用Levenshtein距离、GLEU等衡量句法变化幅度,同时考察模型对正确句子的保留能力(F1分数)和语言漂移问题。
- 提示词设计:测试了