本文是LLM系列文章,针对《Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning》的翻译。
使用大型语言模型丰富机器学习数据集的文档
摘要
最近的监管举措,如《欧洲人工智能法案》和机器学习(ML)社区的相关声音强调,需要沿着几个关键维度描述数据集,以获得值得信赖的人工智能,例如来源过程和社会问题。然而,这些信息通常在随附文档中以非结构化文本的形式呈现,阻碍了它们的自动分析和处理。在这项工作中,我们探索了使用大型语言模型(LLM)和一组提示策略来自动从文档中提取这些维度,并用它们丰富数据集描述。我们的方法可以帮助数据发布者和从业者创建机器可读文档,以提高其数据集的可发现性,评估其是否符合当前的人工智能法规,并提高在其上训练的机器学习模型的整体质量。
在这篇论文中,我们使用两种不同的LLM(GPT3.5和Flan-UL2)对发表在两种科学期刊(Nature’s scientific Data和Elsevier’s Data In Brief)上的12篇科学数据集论文进行了评估。结果表明,我们的提示提取策略具有良好的准确性。具体结果因尺寸而异,但总体而言,GPT3.5的准确率(81.21%)略高于FLAN-UL2