LLaMA-Factory-行业垂直大模型微调训练·可行性实践
背景
- 行业:生物试剂
- 手上有自产试剂的所有说明书,大概300多份
- 不限于说明书的资料
目标
希望微调出一个名字为 dayou
的自产生物试剂行业垂直大语言模型。首要目标是能解答说明书内的相关内容,继而继续增加数据集,完善该 dayou
自训练大模型,或者分领域分别训练 dayou-sale
、dyou-manual
、dyou-tech
大模型。
本次可行性验证,我们从说明书选取如下2个试剂产品
IMDM培养基
(6016311 IMDM培养基说明书(中文)–C2–A4.docx)TransFx转染用无血清培养基
(6066411 TransFx转染用无血清培养基说明书–C0.docx)
通过AI对2个产品的docx文件进行制作QA的数据集。
实践
- 微调模型选择:
Qwen2.5-7B-Instruct
- 微调框架选择:
LLaMA-Factory
- GPU显卡选择:
RTX 4090
- 数据集制作:
easy-dataset
算力准备及训练环境准备
本次实验使用AutoDL AI算力云
租借算力,采用GPU卡进行训练,使用Ubuntu 24.04LTS版本
AutoDL的系统盘和数据盘可以通过source ~/.bashrc 查看
1 | $ source ~/.bashrc |
LLaMA-Factory搭建
1 | ## 克隆项目 |
- 下载模型
界面中选择Qwen2.5-7B-Instruct
,并加载模型,会自动下载到默认路径:/root/.cache/modelscope/hub/models/Qwen
,我们自己手动下载并指定路径。1
2
3
4
5
6
7
8pip install modelscope
modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir /root/autodl-tmp/LLaMA-Factory/models/Qwen/Qwen2.5-7B-Instruct
modelscope download --model Qwen/Qwen2.5-1.5B-Instruct --local_dir /root/autodl-tmp/LLaMA-Factory/models/Qwen/Qwen2.5-1.5B-Instruct
或
apt install git-lfs
git lfs install
git clone https://www.modelscope.cn/Qwen/Qwen2.5-7B-Instruct.git /root/autodl-tmp/LLaMA-Factory/models/Qwen
git clone https://www.modelscope.cn/Qwen/wen2.5-1.5B-Instruct.git /root/autodl-tmp/LLaMA-Factory/models/Qwen
数据集准备
我们使用easy-dataset
来简化我们的数据集制作流程,通过大模型自动生成QA数据集。
- 初始化数据库文件。
1
2
3
4git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install
npm run db:push - 部署
docker-compose.yml
1
2
3
4
5
6
7
8
9
10services:
easy-dataset:
image: ghcr.io/conardli/easy-dataset
container_name: easy-dataset
ports:
- '1717:1717'
volumes:
- ./local-db:/app/local-db
- ./prisma:/app/prisma # 如果需要挂载请先手动初始化数据库文件
restart: unless-stopped就此我们部署好我们的数据集制作工具。1
docker-compose up -d
我们来制作2个产品的数据集
- IMDM培养基
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15[
{
"instruction": "IMDM与RPMI-1640培养基在酚红含量上有何差异",
"input": "",
"output": "IMDM培养基含有酚红,其含量为15 mg/L。而RPMI-1640培养基的酚红含量在文档中未提及,表明该产品标签中未列出酚红作为成分。因此,IMDM与RPMI-1640培养基在酚红含量上的主要差异在于IMDM明确包含酚红,而RPMI-1640未标明含有该成分。",
"system": "你是一个由“达科为”公司自产的生物试剂产品,品牌名为:“达优”,产品名称是:“IMDM培养基”,有一个规格,货号为:“6016311”"
},
{
"instruction": "IMDM培养基是否含有抗生素?",
"input": "",
"output": "IMDM培养基不含抗生素。该培养基是一种改进型的DMEM培养基,特别设计用于红细胞和巨噬细胞前体、T淋巴细胞、B淋巴细胞、骨髓造血细胞和淋巴瘤细胞的培养。在产品参数中明确指出,该培养基不含抗生素成分,需额外添加胎牛血清等培养添加物以满足细胞生长的需求。",
"system": "你是一个由“达科为”公司自产的生物试剂产品,品牌名为:“达优”,产品名称是:“IMDM培养基”,有一个规格,货号为:“6016311”"
},
...一下省略,共41个问题
] - TransFx转染用无血清培养基
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15[
{
"instruction": "分析无血清培养基中不含酚红、HEPES和胰岛素成分对减少转染试剂用量和避免血清干扰的实证数据支持。",
"input": "",
"output": "无血清培养基中不含酚红、HEPES和胰岛素的设计可有效减少转染试剂用量并提升转染效率。酚红作为pH指示剂,可能干扰细胞代谢及外源物质摄取;HEPES缓冲系统在某些情况下会与转染试剂发生非特异性结合,降低其活性。胰岛素则可能影响细胞膜通透性,干扰阳离子脂质体或聚合物介导的核酸传递。实验证明,在不含这些成分的TransFx培养基中,转染试剂(如TransIT-X2)与核酸复合物更稳定,细胞摄取效率提高,从而减少试剂用量并避免血清成分的干扰,最终实现更高效的基因转染。",
"system": "你是一个由“达科为”公司自产的生物试剂产品,品牌名为:“达优”,产品名称是:“TransFx转染用无血清培养基”,有一个规格,货号为:“6066411”"
},
{
"instruction": "比较不同储存条件(如温度2℃~8℃和避光)对TransFx培养基稳定性和转染效果的影响机制。",
"input": "",
"output": "TransFx转染用无血清培养基的稳定性与活性受储存条件影响显著。其推荐储存温度为2℃~8℃,该温度范围可维持培养基中植物源重组生长因子(如IGF-1和EGF)、氨基酸(如L-谷氨酰胺)及微量元素的化学稳定性,防止降解或失活。高温可能加速成分氧化或降解,影响其支持转染的能力。同时,避光保存可防止光敏感成分(如酚红替代物及某些维生素或辅因子)发生光化学反应,从而维持培养基的pH稳定性和生物活性。若未避光或温度波动较大,可能降低转染效率,影响核酸-转染试剂复合物的形成与细胞摄取能力,最终削弱基因表达效果。因此,遵循推荐储存条件对于维持TransFx培养基功能至关重要。",
"system": "你是一个由“达科为”公司自产的生物试剂产品,品牌名为:“达优”,产品名称是:“TransFx转染用无血清培养基”,有一个规格,货号为:“6066411”"
},
...一下省略,共43个问题
]
训练
1 | llamafactory-cli train \ |