前面我们介绍了baseline的思路及写作方案,这里我们尝试对数据做增强,但是需要聪明的你加入自己的努力完成更好的思路。
今天需要大家学习上手尝试数据增强,不过我会把增强的思路和相关知识告诉大家,让大家学习如何使用llm完成数据增强部分,但是怎么组合就需要大家自己动手完成啦。
接着会帮助大家解决评分的困扰,因为每周只能提交四次成绩,对大家来说每次成绩如果没有起色但是提交会影响大家的修改进度,这里抛砖引玉给出评分prompt。
备注:这里的代码请到https://aistudio.baidu.com/projectdetail/8236744 fork食用。
1.数据增强
1.1 星火大模型api申请与使用
为了方便大家完成大模型实现数据增强的方案,这里我们介绍如何申请1亿星火MAX大模型tokens并使用的方法。如果大家还有其他大模型想要尝试可以自行修改哦~
1.1.1 1亿tokens申请
首先请大家登录领取网址: 星火大模型MAX api领取地址(点击跳转)
再次进入上述页面点击这里(快速跳转到星火Max配置页面,记得选对应用昂)~
星火模型介绍:
1.1.2 星火Max模型api调用方式
# 环境安装
pip install --upgrade spark_ai_python
api调用脚本:
这里我封装好了主要代码,大家像baseline1一样填入下面参数即可。
SPARKAI_APP_ID = '' SPARKAI_API_SECRET = '' SPARKAI_API_KEY = ''
记得填入上面的参数哦~
from sparkai.llm.llm import ChatSparkLLM, ChunkPrintHandler
from sparkai.core.messages import ChatMessage
#星火认知大模型Spark Max的URL值,其他版本大模型URL值请前往文档(https://www.xfyun.cn/doc/spark/Web.html)查看
SPARKAI_URL = 'wss://spark-api.xf-yun.com/v3.5/chat'
#星火认知大模型调用秘钥信息,请前往讯飞开放平台控制台(https://console.xfyun.cn/services/bm35)查看
SPARKAI_APP_ID = ''
SPARKAI_API_SECRET = ''
SPARKAI_API_KEY = ''
#星火认知大模型Spark Max的domain值,其他版本大模型domain值请前往文档(https://www.xfyun.cn/doc/spark/Web.html)查看
SPARKAI_DOMAIN = 'generalv3.5'
def call_sparkai(prompt):
spark = ChatSparkLLM(
spark_api_url=SPARKAI_URL,
spark_app_id=SPARKAI_APP_ID,
spark_api_key=SPARKAI_API_KEY,
spark_api_secret=SPARKAI_API_SECRET,
spark_llm_domain=SPARKAI_DOMAIN,
streaming=False,
)
messages = [ChatMessage(
role="user",
content=prompt
)]
handler = ChunkPrintHandler()
a = spark.generate([messages], callbacks=[handler])
return a.generations[0][0].text
测试:这里调用函数即可使用3.5模型~整体来说比较简单。大家记得3.5的模型不光这次比赛能用,日常也可以调用这1亿tokens做一些别的开发。
1.2 数据增强思路
数据增强为了补充一些数据,一方面是在先前生成的结果上做一些优化,一方面可以再生成一些补充数据以作增强。这一部分我只给出核心代码,细节部分需要大家自行完成~哒哒,也算是这一期的作业咯//
1.2.1 使用大模型完成答案生成
还记得我们