-
Notifications
You must be signed in to change notification settings - Fork 48
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Index-1.9B-Pure从结果来看并不比base效果好? #1
Comments
因为去除了指令数据导致刷题能力下降了,我们后续也测试了基于pure和base分别训练1.9bchat模型,最终的评测结果差不多,base会略强一些,有趣的是更大尺度的模型结论相反。我们猜测是因为对于1.9b模型来说指令的拟合还是需要大量数据量。 |
有意思的结论 |
@mayokaze
以及报告中提到「为了进一步对齐人类的偏好,我们基于 Index 1.9b base model 进行了 SFT 和 DPO 训练。」,为什么没有选择 pure (boost 原因可以理解)作为后续的训练起点呢,是在大尺度模型上有什么其他结论吗? |
base(有 WSD,有精选数据+指令数据) 为什么没有选择 pure的原因单纯是1.9B base train出来后续benchmark更高一点 |
感谢您的答疑~ |
抱歉,技术报告里术语不是很严谨,导致了你的误解,我们后续会考虑写一个英文版的正式报告。 |
有趣,指令数据集会提升hellaswag (这里应该是0shot, ppl 的评估方式)。请教,具体来讲,是什么类型的指令数据对这个类型的会有价值呢? |
会是什么原因?高质量数据不行?
The text was updated successfully, but these errors were encountered: