Comma v0.1 -全开源数据训练的可复现大模型

发表于 2025-06-08 更新于 2025-08-03 阅读次数：阅读次数：

credit: via

近期，Common Pile 团队开源了利用开放数据训练的7B LLM模型Comma v0.1 1T和2T，训练数据采用的是这个团队采集的Common Pile v0.1，1个8T的数据集，包含公开数据，以及开放证书的数据，也就是训练大模型都是合法的，没有采用带版权的数据。

模型权重：

目前开放了Comma v0.1 1T和2T 2个模型，都是7B量级的，基于Llama3 架构。1T是在1T的数据上训练的，2T采用了2T的训练数据。

注意：这个模型暂时只支持英文，别的语言效果比较差。

比较可贵的是，团队也将训练配置文件开放了出来。训练框架是lingua，训练的配置文件在这里。

下面是1T和2T版本和之前的模型的结果对比，Qwen3指的是是Qwen3-8B。在某些任务上，跟Qwen3-8B差距还是很大。

添加图片注释，不超过 140 字（可选）

另外需要注意：目前给出的模型还是base模型，不是instruct模型。

那么具体该如何体验呢? 最简单的尝试方式是采用mlx框架来在mac上测试，可以用下面的一条命令(先pip 安装uv）：

uv run --python 3.12 \
  --with mlx-lm \
  mlx_lm.generate \
    --model simonw/comma-v0.1-2t-mlx \
    --prompt 'The captial city of china is'

这是AI透明化道路上的一小步，效果虽然还比较一般，但走在正确的道路上。希望以后能看到更多数据合法开放、训练过程公开、模型权重开放的AI模型。