LLM大模型训练 Posted on 2024-03-06 | 我们提供了基于AutoGPTQ的量化方案,并开源了Int4和Int8量化模型。量化模型的效果损失很小,但能显著降低显存占用并提升推理速度。 KV cache量化 Lora : 全参数微调 Q-Lora: 使用4比特量化模型以及paged attention等技术实现更小的显存开销。 Deepspeed Megatron-LM # 图解大模型训练之:张量模型并行(TP),Megatron-LM Fine-Tune小白入门大模型:LangChain # [大模型微调技术] LoRA、QLoRA、QA-LoRA 原理笔记 LLM微调(Finetune) 技术–LoRA # 大规模语言模型–LLaMA 家族 # LLaMA及其子孙模型概述 # 低秩自适应的参数高效LLM微调(LoRA)技术拆解