AI-GPT

ChatGPT

文心一言(百度)

通义千问(阿里)

  • 代码:https://github.com/QwenLM/Qwen

  • 体验地址:https://modelscope.cn/studios/qwen/Qwen-7B-Chat-Demo/summary

  • 18亿(1.8B)、70亿(7B)、140亿(14B)和720亿(72B)。本次开源包括基础模型Qwen,即Qwen-1.8B、Qwen-7B、Qwen-14B、Qwen-72B,以及对话模型Qwen-Chat,即Qwen-1.8B-Chat、Qwen-7B-Chat、Qwen-14B-Chat和Qwen-72B-Chat。

  • 利用SFT和RLHF技术实现对齐,从基座模型训练得到对话模型。Qwen-Chat具备聊天、文字创作、摘要、信息抽取、翻译等能力,同时还具备一定的代码生成和简单数学推理的能力。

ChatGLM(清华)

chatglm ,chatglm2

项目地址:https://github.com/THUDM/ChatGLM2-6B

HuggingFace:https://huggingface.co/THUDM/chatglm2-6b

MOSS (复旦NLP团队)

LLaMa(Meta)

由[Meta**](https://m.baidu.com/s?word=Meta&sa=re_dqa_zy)研发的一系列大语言模型,包括多种不同参数规模的版本,如[7B**](https://m.baidu.com/s?word=7B&sa=re_dqa_zy)、13B、33B和65B(650亿参数)

LLaMA-13B在大多数基准上优于GPT-3,尽管其参数只有GPT-3的十分之一。此外,LLaMA-65B和LLaMA-33B是在1.4万亿个[token**](https://m.baidu.com/s?word=token&sa=re_dqa_zy)上训练的,而最小的模型LLaMA-7B是在1万亿个token上训练的

LLaMA模型的训练数据集来源于公开数据集,无任何定制数据集,这保证了其工作与开源兼容和可复现。整个训练数据集在token化之后大约包含1.4T的token。LLaMA模型的一个显著特点是它可以在单块V100 GPU上运行,这使得LLaMA模型在计算预算有限的情况下也能提供良好的性能,有助于使大型语言模型的使用和研究更加普及。

LLaMa-2

Llama-2相比Llama-1有不少技术层面的改进,从而带来了模型性能、推理效率以及安全性等方面的有效提升。具体而言,重要的改进有以下几点:

模型架构上使用Group-Query-Attention(GQA)来提高模型推理效率,语境长度从2K增加一倍到4K。预训练语料从1.4T tokens增加到2T tokens。在监督微调(SFT)阶段更加注重数据集质量,使用更少但质量更高的SFT数据相比使用百万量级的公开SFT数据,效果显著提升。引入了三项安全训练技术Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

Alpaca

miniChatGPT

https://zhuanlan.zhihu.com/p/652735189

通义千问(模型参数GPU资源)

模型 开源日期 最大上下文长度 System Prompt强化 预训练token数 微调(Q-Lora)最小GPU用量 生成2048个token的最小显存占用 工具调用
Qwen-1.8B 23.11.30 32K 2.2T 5.8GB 2.9GB
Qwen-7B 23.08.03 32K 2.4T 11.5GB 8.2GB
Qwen-14B 23.09.25 8K 3.0T 18.7GB 13.0GB
Qwen-72B 23.11.30 32K 3.0T 61.4GB 48.9GB

名词解释

HuggingFace AI开发者社区,等同于GitHub;

主要是HuggingFace把AI项目的研发流程标准化,即准备数据集、定义模型、训练和测试,如下所示:

REF:

大模型的实践应用4-ChatGLM-6b大模型的结构与核心代码解读,最全的ChatGLM模型架构介绍与源码解读-CSDN博客

Zhihu 大模型设计与升级之道:ChatGLM、LLAMA、Baichuan及LLM结构解析

# 大模型升级与设计之道:ChatGLM、LLAMA、Baichuan及LLM结构解析