Datawhale AI 夏令营第四期大模型技术-微调 task3 数据增强与评分-CSDN博客

本文链接：https://blog.csdn.net/spring5/article/details/141209191

前面我们介绍了baseline的思路及写作方案，这里我们尝试对数据做增强，但是需要聪明的你加入自己的努力完成更好的思路。

今天需要大家学习上手尝试数据增强，不过我会把增强的思路和相关知识告诉大家，让大家学习如何使用llm完成数据增强部分，但是怎么组合就需要大家自己动手完成啦。

接着会帮助大家解决评分的困扰，因为每周只能提交四次成绩，对大家来说每次成绩如果没有起色但是提交会影响大家的修改进度，这里抛砖引玉给出评分prompt。

备注：这里的代码请到https://aistudio.baidu.com/projectdetail/8236744 fork食用。

1.数据增强

1.1 星火大模型api申请与使用

为了方便大家完成大模型实现数据增强的方案，这里我们介绍如何申请1亿星火MAX大模型tokens并使用的方法。如果大家还有其他大模型想要尝试可以自行修改哦~

1.1.1 1亿tokens申请

首先请大家登录领取网址：星火大模型MAX api领取地址（点击跳转）

再次进入上述页面点击这里（快速跳转到星火Max配置页面，记得选对应用昂）~

星火模型介绍：

1.1.2 星火Max模型api调用方式

# 环境安装
pip install --upgrade spark_ai_python

api调用脚本:

这里我封装好了主要代码，大家像baseline1一样填入下面参数即可。

SPARKAI_APP_ID = '' SPARKAI_API_SECRET = '' SPARKAI_API_KEY = ''

记得填入上面的参数哦~

from sparkai.llm.llm import ChatSparkLLM, ChunkPrintHandler
from sparkai.core.messages import ChatMessage

#星火认知大模型Spark Max的URL值，其他版本大模型URL值请前往文档（https://www.xfyun.cn/doc/spark/Web.html）查看
SPARKAI_URL = 'wss://spark-api.xf-yun.com/v3.5/chat'
#星火认知大模型调用秘钥信息，请前往讯飞开放平台控制台（https://console.xfyun.cn/services/bm35）查看
SPARKAI_APP_ID = ''
SPARKAI_API_SECRET = ''
SPARKAI_API_KEY = ''
#星火认知大模型Spark Max的domain值，其他版本大模型domain值请前往文档（https://www.xfyun.cn/doc/spark/Web.html）查看
SPARKAI_DOMAIN = 'generalv3.5'

def call_sparkai(prompt):
    spark = ChatSparkLLM(
        spark_api_url=SPARKAI_URL,
        spark_app_id=SPARKAI_APP_ID,
        spark_api_key=SPARKAI_API_KEY,
        spark_api_secret=SPARKAI_API_SECRET,
        spark_llm_domain=SPARKAI_DOMAIN,
        streaming=False,
    )
    messages = [ChatMessage(
        role="user",
        content=prompt
    )]
    handler = ChunkPrintHandler()
    a = spark.generate([messages], callbacks=[handler])
    return a.generations[0][0].text

测试：这里调用函数即可使用3.5模型~整体来说比较简单。大家记得3.5的模型不光这次比赛能用，日常也可以调用这1亿tokens做一些别的开发。

1.2 数据增强思路

数据增强为了补充一些数据，一方面是在先前生成的结果上做一些优化，一方面可以再生成一些补充数据以作增强。这一部分我只给出核心代码，细节部分需要大家自行完成~哒哒，也算是这一期的作业咯//

1.2.1 使用大模型完成答案生成

还记得我们