Comma v0.1 -全开源数据训练的可复现大模型

credit: via

近期,Common Pile 团队开源了利用开放数据训练的7B LLM模型Comma v0.1 1T和2T,训练数据采用的是这个团队采集的Common Pile v0.1,1个8T的数据集,包含公开数据,以及开放证书的数据,也就是训练大模型都是合法的,没有采用带版权的数据。

博客文章:https://huggingface.co/blog/stellaathena/common-pile

论文地址:https://arxiv.org/abs/2506.05209

训练数据地址:https://huggingface.co/datasets/common-pile/comma_v0.1_training_dataset

模型权重:

目前开放了Comma v0.1 1T和2T 2个模型,都是7B量级的,基于Llama3 架构。1T是在1T的数据上训练的,2T采用了2T的训练数据。

注意:这个模型暂时只支持英文,别的语言效果比较差。

比较可贵的是,团队也将训练配置文件开放了出来。训练框架是lingua,训练的配置文件在这里

下面是1T和2T版本和之前的模型的结果对比,Qwen3指的是是Qwen3-8B。在某些任务上,跟Qwen3-8B差距还是很大。

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

另外需要注意:目前给出的模型还是base模型,不是instruct模型。

那么具体该如何体验呢? 最简单的尝试方式是采用mlx框架来在mac上测试,可以用下面的一条命令(先pip 安装uv):

1
2
3
4
5
uv run --python 3.12 \
--with mlx-lm \
mlx_lm.generate \
--model simonw/comma-v0.1-2t-mlx \
--prompt 'The captial city of china is'

这是AI透明化道路上的一小步,效果虽然还比较一般,但走在正确的道路上。希望以后能看到更多数据合法开放、训练过程公开、模型权重开放的AI模型。