allenai/open-instruct issues and pull requests

#555 - [WIP] removing incorrect date cutoffs

Pull Request - State: open - Opened by natolambert 5 days ago

#554 - Add train file support back to finetune

Pull Request - State: closed - Opened by hamishivi 6 days ago

#553 - Use dpo_tune_cache

Pull Request - State: closed - Opened by ljvmiranda921 6 days ago

#552 - Fix eval script

Pull Request - State: closed - Opened by hamishivi 7 days ago

#551 - Add optional r1-style thinking reward

Pull Request - State: closed - Opened by vwxyzjn 7 days ago

#549 - Add e2e dev scripts

Pull Request - State: closed - Opened by vwxyzjn 7 days ago - 2 comments

#548 - Properly set max length for eval

Pull Request - State: closed - Opened by hamishivi 7 days ago

#547 - Fix final ckpt + allow env var passing in Mason

Pull Request - State: closed - Opened by hamishivi 8 days ago

#546 - Why isn't the reference model re-initialized for each epoch in GRPO?

Issue - State: open - Opened by Jerrrrykun 9 days ago - 7 comments

#545 - re-adding `run_oe_eval_experiments`

Pull Request - State: closed - Opened by vwxyzjn 10 days ago

#545 - re-adding `run_oe_eval_experiments`

Pull Request - State: closed - Opened by vwxyzjn 10 days ago

#544 - Fix chat template load

Pull Request - State: closed - Opened by hamishivi 10 days ago

#544 - Fix chat template load

Pull Request - State: closed - Opened by hamishivi 10 days ago

#543 - Merge PPO files

Issue - State: open - Opened by hamishivi 10 days ago

#543 - Merge PPO files

Issue - State: open - Opened by hamishivi 10 days ago

#542 - checkpointing is broken

Issue - State: closed - Opened by peter-sk 10 days ago - 1 comment

#541 - fix checkpointing

Pull Request - State: closed - Opened by peter-sk 10 days ago

#541 - fix checkpointing

Pull Request - State: closed - Opened by peter-sk 10 days ago

#540 - deprecate the `dataset_mixer_dict`

Pull Request - State: closed - Opened by vwxyzjn 10 days ago

#540 - deprecate the `dataset_mixer_dict`

Pull Request - State: closed - Opened by vwxyzjn 10 days ago

#539 - RLVR from base

Pull Request - State: closed - Opened by vwxyzjn 11 days ago - 2 comments

#539 - RLVR from base

Pull Request - State: closed - Opened by vwxyzjn 11 days ago - 2 comments

#538 - Clean up rlvr a lil, add base support

Pull Request - State: closed - Opened by hamishivi 11 days ago

#538 - Clean up rlvr a lil, add base support

Pull Request - State: closed - Opened by hamishivi 11 days ago

#537 - Scheduler Issue in PPO/GRPO implementation

Issue - State: open - Opened by ashish230897 11 days ago

#537 - Scheduler Issue in PPO/GRPO implementation

Issue - State: open - Opened by ashish230897 11 days ago

#536 - Hanging in broadcast_to_vllm

Issue - State: closed - Opened by rohand-cerebras 12 days ago - 3 comments

#535 - GRPO loss fix

Pull Request - State: closed - Opened by vwxyzjn 12 days ago - 2 comments

#534 - GRPO implementation update

Issue - State: open - Opened by vwxyzjn 13 days ago - 17 comments

#533 - add more metrics to GRPO

Pull Request - State: closed - Opened by vwxyzjn 13 days ago

#532 - DS2 fix and additional logging

Pull Request - State: closed - Opened by vwxyzjn 13 days ago

#532 - DS2 fix and additional logging

Pull Request - State: closed - Opened by vwxyzjn 13 days ago

#531 - Kl loss should be differentiable in GRPO

Pull Request - State: closed - Opened by gauravpandeyamu 13 days ago - 1 comment

#530 - KL loss should be differentiable in GRPO

Issue - State: closed - Opened by gauravpandeyamu 13 days ago