LLM大模型训练

我们提供了基于AutoGPTQ的量化方案,并开源了Int4和Int8量化模型。量化模型的效果损失很小,但能显著降低显存占用并提升推理速度。

KV cache量化

Lora : 全参数微调

Q-Lora: 使用4比特量化模型以及paged attention等技术实现更小的显存开销。

Deepspeed

Megatron-LM

# 图解大模型训练之:张量模型并行(TP),Megatron-LM

Fine-Tune

小白入门大模型:LangChain

# [大模型微调技术] LoRA、QLoRA、QA-LoRA 原理笔记

LLM微调(Finetune) 技术–LoRA

# 大规模语言模型–LLaMA 家族

# LLaMA及其子孙模型概述

# 低秩自适应的参数高效LLM微调(LoRA)技术拆解