zirui

A place to write down my thoughts about cs and life

View on GitHub

Direct Judgement Preference Optimization

insight: 在不同任务上训练critical model

数据合成:

  1. CoT: 对于不同任务(单个评分,pairwise对比,分类)prompt提示让LLM输出CoT的criticas, 基于groud truth标记为correct/chosen,incorrect/rejected
  2. 分类: 去除CoT, 保留judegement作为结果
  3. reduction: 给定instruction和模型自己的evaluation, 让模型推测原始的response, strong lm的输出作为chosen, weak lm 的输出作为rejected

训练:

实验结果:

approch

evaluation