Windows环境下如何用GPT3微调自己的模型
1 环境搭建
1.1 安装Anaconda3
1.2 创建虚拟环境
conda create -n GPT python=3.7 -y
conda activate GPT
2 安装
安装openai包,以此使用OpenAI命令行界面
因为我们后续需要使用pandas库转换数据格式,因此这里需要安装pandas。
pip3 install openai -i https://pypi.doubanio.com/simple/
pip install pandas
OPENAI_API_KEY通过将以下行添加到您的 shell 初始化脚本(例如 .bashrc、zshrc 等)或在微调命令之前的命令行中运行它来设置您的环境变量:
set OPENAI_API_KEY="<OPENAI_API_KEY>"
注:OPENAI_API_KEY获取方式
3 准备训练数据
这里我们以kaggle上的某个数据集为例,下载链接:https://www.kaggle.com/datasets/egorovm/patient-disease?resource=download
下载解压后如下所示,我们使用disease_clean_symptoms.csv为例。
用EXCEL打开disease_clean_symptoms.csv如下图所示。
然后我们运行process.py处理下这个数据。
import pandas as pd
df = pd.read_csv('disease_clean_symptoms.csv',header=None,index_col=False,nrows=500,names=['prompt','completion'])
df.to_csv("disease_clean_symptoms_new.csv",index=False)
运行后打开生成的文件disease_clean_symptoms_new.csv,如下图所示。
4 CLI数据准备工具
OpenAI开发了一个工具来验证、提供建议和重新格式化您的数据:
openai tools fine_tunes.prepare_data -f disease_clean_symptoms_new.csv
此工具接受不同的格式,唯一的要求是它们包含提示和完成列/键。您可以传递CSV、TSV、XLSX、JSON或JSONL文件,它会在指导您完成建议的更改过程后将输出保存到 JSONL 文件中以备微调。
运行时根据提示输入Y,最终得到jsonl格式文件,如下图所示。
5 创建微调模型
openai api fine_tunes.create -t "disease_clean_symptoms_new_prepared.jsonl" --batch_size 64 --model ada
成功!
注:这里需要科学上网。
参考:https://www.bilibili.com/video/BV1DU4y1c77Y/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=0f8024a4585deeca68e0b223bb06f4c6