Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Index-1.9B-Pure从结果来看并不比base效果好? #1

Open
datalee opened this issue Jun 14, 2024 · 7 comments
Open

Index-1.9B-Pure从结果来看并不比base效果好? #1

datalee opened this issue Jun 14, 2024 · 7 comments

Comments

@datalee
Copy link

datalee commented Jun 14, 2024

会是什么原因?高质量数据不行?

@mayokaze
Copy link
Collaborator

因为去除了指令数据导致刷题能力下降了,我们后续也测试了基于pure和base分别训练1.9bchat模型,最终的评测结果差不多,base会略强一些,有趣的是更大尺度的模型结论相反。我们猜测是因为对于1.9b模型来说指令的拟合还是需要大量数据量。

@datalee
Copy link
Author

datalee commented Jun 14, 2024

趣的是更大尺度的模型结论相反。我们猜测是因为对于1.9b模型来说指令的拟合还是需要大量数据量。

有意思的结论

@wlhgtc
Copy link

wlhgtc commented Jun 21, 2024

@mayokaze
想请问一下关于某些代词的解释,下面的理解对吗:

  • base(有 WSD,无精选数据)
  • pure(有 WSD,有精选数据)
  • boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗?

@mayokaze
Copy link
Collaborator

@mayokaze 想请问一下关于某些代词的解释,下面的理解对吗:

  • base(有 WSD,无精选数据)
  • pure(有 WSD,有精选数据)
  • boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗?

base(有 WSD,有精选数据+指令数据)
pure(有 WSD,有精选数据)
没有boost

为什么没有选择 pure的原因单纯是1.9B base train出来后续benchmark更高一点

@wlhgtc
Copy link

wlhgtc commented Jun 22, 2024

@mayokaze 想请问一下关于某些代词的解释,下面的理解对吗:

  • base(有 WSD,无精选数据)
  • pure(有 WSD,有精选数据)
  • boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗?

base(有 WSD,有精选数据+指令数据) pure(有 WSD,有精选数据) 没有 boost

为什么没有选择 pure 的原因单纯是 1.9B base train 出来后续 benchmark 更高一点

感谢您的答疑~
刚又看了技术报告,确认了一下,「boost」应该是 来源于「index-1.9b-ablation-boost 」。
以及按照「我们后续也测试了基于 pure 和 base 分别训练 1.9bchat 模型,最终的评测结果差不多,base 会略强一些,有趣的是更大尺度的模型结论相反」 这里,是说 「加指令数据退火」的(大于 1.9B 的某个尺寸)模型在 sft 后表现反而不如「不加指令数据退火」的版本?
这个是否可以理解为:「加指令数据退火」提前释放了部分 SFT 潜力,把某些 SFT 阶段应有的提升前移了?

@mayokaze
Copy link
Collaborator

@mayokaze 想请问一下关于某些代词的解释,下面的理解对吗:

  • base(有 WSD,无精选数据)
  • pure(有 WSD,有精选数据)
  • boost(有 WSD, 有精选数据+指令数据)

以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗?

base(有 WSD,有精选数据+指令数据) pure(有 WSD,有精选数据) 没有 boost
为什么没有选择 pure 的原因单纯是 1.9B base train 出来后续 benchmark 更高一点

感谢您的答疑~ 刚又看了技术报告,确认了一下,「boost」应该是 来源于「index-1.9b-ablation-boost 」。 以及按照「我们后续也测试了基于 pure 和 base 分别训练 1.9bchat 模型,最终的评测结果差不多,base 会略强一些,有趣的是更大尺度的模型结论相反」 这里,是说 「加指令数据退火」的(大于 1.9B 的某个尺寸)模型在 sft 后表现反而不如「不加指令数据退火」的版本? 这个是否可以理解为:「加指令数据退火」提前释放了部分 SFT 潜力,把某些 SFT 阶段应有的提升前移了?

抱歉,技术报告里术语不是很严谨,导致了你的误解,我们后续会考虑写一个英文版的正式报告。
关于消融实验:消融实验的boost和pure不是最终release的版本(因为训练的tokens量不一样),这里的boost的数据配比是我们最终选择用做基线的配比。
关于pure和base/boost的后续sft实验:是的,可以这样理解,deepseekV1的技术报告也提出了类似的观点,他们选择sft阶段再加指令。我们的做法是以实验结果为准,最终我们的方案是decay阶段加指令,并且sft阶段也加了预训练数据(详见sft讨论),这样配置下来会比decay不加指令和sft只有指令要好,在我们已经探索过的几个模型尺度上都成立

@nbcc
Copy link

nbcc commented Jun 25, 2024

有趣,指令数据集会提升hellaswag (这里应该是0shot, ppl 的评估方式)。请教,具体来讲,是什么类型的指令数据对这个类型的会有价值呢?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants