ChatGPT
文心一言(百度)
通义千问(阿里)
体验地址:https://modelscope.cn/studios/qwen/Qwen-7B-Chat-Demo/summary
18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B)。本次开源包括基础模型Qwen,即Qwen-1.8B、Qwen-7B、Qwen-14B、Qwen-72B,以及对话模型Qwen-Chat,即Qwen-1.8B-Chat、Qwen-7B-Chat、Qwen-14B-Chat和Qwen-72B-Chat。
利用SFT和RLHF技术实现对齐,从基座模型训练得到对话模型。Qwen-Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。
ChatGLM(清华)
chatglm ,chatglm2
项目地址:https://github.com/THUDM/ChatGLM2-6B
HuggingFace:https://huggingface.co/THUDM/chatglm2-6b
MOSS (复旦NLP团队)
LLaMa(Meta)
由[Meta**](https://m.baidu.com/s?word=Meta&sa=re_dqa_zy)研发的一系列大语言模型,包括多种不同参数规模的版本,如[7B**](https://m.baidu.com/s?word=7B&sa=re_dqa_zy)、13B、33B和65B(650亿参数)
LLaMA-13B在大多数基准上优于GPT-3,尽管其参数只有GPT-3的十分之一。此外,LLaMA-65B和LLaMA-33B是在1.4万亿个[token**](https://m.baidu.com/s?word=token&sa=re_dqa_zy)上训练的,而最小的模型LLaMA-7B是在1万亿个token上训练的
LLaMA模型的训练数据集来源于公开数据集,无任何定制数据集,这保证了其工作与开源兼容和可复现。整个训练数据集在token化之后大约包含1.4T的token。LLaMA模型的一个显著特点是它可以在单块V100 GPU上运行,这使得LLaMA模型在计算预算有限的情况下也能提供良好的性能,有助于使大型语言模型的使用和研究更加普及。
LLaMa-2
Llama-2相比Llama-1有不少技术层面的改进,从而带来了模型性能、推理效率以及安全性等方面的有效提升。具体而言,重要的改进有以下几点:
模型架构上使用Group-Query-Attention(GQA)来提高模型推理效率,语境长度从2K增加一倍到4K。预训练语料从1.4T tokens增加到2T tokens。在监督微调(SFT)阶段更加注重数据集质量,使用更少但质量更高的SFT数据相比使用百万量级的公开SFT数据,效果显著提升。引入了三项安全训练技术Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。
Alpaca
miniChatGPT
https://zhuanlan.zhihu.com/p/652735189
通义千问(模型参数GPU资源)
模型 | 开源日期 | 最大上下文长度 | System Prompt强化 | 预训练token数 | 微调(Q-Lora)最小GPU用量 | 生成2048个token的最小显存占用 | 工具调用 |
---|---|---|---|---|---|---|---|
Qwen-1.8B | 23.11.30 | 32K | ✅ | 2.2T | 5.8GB | 2.9GB | ✅ |
Qwen-7B | 23.08.03 | 32K | ❎ | 2.4T | 11.5GB | 8.2GB | ✅ |
Qwen-14B | 23.09.25 | 8K | ❎ | 3.0T | 18.7GB | 13.0GB | ✅ |
Qwen-72B | 23.11.30 | 32K | ✅ | 3.0T | 61.4GB | 48.9GB | ✅ |
名词解释
HuggingFace AI开发者社区,等同于GitHub;
主要是HuggingFace把AI项目的研发流程标准化,即准备数据集、定义模型、训练和测试,如下所示:
REF:
大模型的实践应用4-ChatGLM-6b大模型的结构与核心代码解读,最全的ChatGLM模型架构介绍与源码解读-CSDN博客