Windows环境下如何用GPT3微调自己的模型

1 环境搭建

1.1 安装Anaconda3

1.2 创建虚拟环境

conda create -n GPT python=3.7 -y
conda activate GPT

2 安装

安装openai包，以此使用OpenAI命令行界面
因为我们后续需要使用pandas库转换数据格式，因此这里需要安装pandas。

pip3 install openai -i https://pypi.doubanio.com/simple/
pip install pandas

OPENAI_API_KEY通过将以下行添加到您的 shell 初始化脚本（例如 .bashrc、zshrc 等）或在微调命令之前的命令行中运行它来设置您的环境变量：

set OPENAI_API_KEY="<OPENAI_API_KEY>"

注：OPENAI_API_KEY获取方式
在这里插入图片描述

3 准备训练数据

这里我们以kaggle上的某个数据集为例，下载链接：https://www.kaggle.com/datasets/egorovm/patient-disease?resource=download
下载解压后如下所示，我们使用disease_clean_symptoms.csv为例。

在这里插入图片描述

用EXCEL打开disease_clean_symptoms.csv如下图所示。

在这里插入图片描述

然后我们运行process.py处理下这个数据。

import pandas as pd

df = pd.read_csv('disease_clean_symptoms.csv',header=None,index_col=False,nrows=500,names=['prompt','completion'])

df.to_csv("disease_clean_symptoms_new.csv",index=False)

运行后打开生成的文件disease_clean_symptoms_new.csv，如下图所示。

在这里插入图片描述

4 CLI数据准备工具

OpenAI开发了一个工具来验证、提供建议和重新格式化您的数据：

openai tools fine_tunes.prepare_data -f disease_clean_symptoms_new.csv

此工具接受不同的格式，唯一的要求是它们包含提示和完成列/键。您可以传递CSV、TSV、XLSX、JSON或JSONL文件，它会在指导您完成建议的更改过程后将输出保存到 JSONL 文件中以备微调。

运行时根据提示输入Y，最终得到jsonl格式文件，如下图所示。
在这里插入图片描述

5 创建微调模型

openai api fine_tunes.create -t "disease_clean_symptoms_new_prepared.jsonl" --batch_size 64 --model ada

成功！
注：这里需要科学上网。

参考：https://www.bilibili.com/video/BV1DU4y1c77Y/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=0f8024a4585deeca68e0b223bb06f4c6