您好,很感谢作者团队公布了UltraFeedback数据集,我目前在尝试使用这个数据集去训练Reward model,但遇到了一个问题。
数据集共包含64K的指令,256K的response,依照论文的设定,从这些数据集能生成340K的comparisons,请问这个是怎么生成的?我没有在项目代码中找到这一功能。如果项目代码里有的话,是在下面的路经中吗?
https://github.com/OpenBMB/UltraFeedback/tree/main/src/comparison_data_generation