JayHyeon

267 models • 127 total models in database

Sort by:

pythia-2.8b-rDPO_5e-7_1.0vpo_constant-1ep_0.3label_smoothing

Model Card for pythia-2.8b-rDPO5e-71.0vpoconstant-1ep0.3labelsmoothing This model is a fine-tuned version of EleutherAI/pythia-2.8b on the trl-lib/ultrafeedbackbinarized dataset. It has been trained using TRL. This model was trained with DPO, a method introduced in Direct Preference Optimization: Your Language Model is Secretly a Reward Model. - TRL: 0.19.0.dev0 - Transformers: 4.52.4 - Pytorch: 2.7.1 - Datasets: 3.6.0 - Tokenizers: 0.21.1

JayHyeon

pythia-2.8b-rDPO_5e-7_1.0vpo_constant-1ep_0.3label_smoothing

pythia-2.8b-cDPO_5e-7_1.0vpo_constant-1ep_0.3label_smoothing

pythia-2.8b-cDPO_5e-7_1.0vpo_constant-1ep_0.1label_smoothing

pythia-2.8b-2e-5-1ep

pythia-2.8b-rDPO_5e-7_1.0vpo_constant-1ep_0.1label_smoothing

Qwen_0.5-VDPO_5e-7_3.0vpo_constant-1ep

Qwen_0.5-rDPO_5e-7_0.1lsmooth-1.0vpo_constant

Qwen_1.5B-math-cDPO_5e-7_0.1lsmooth-1.0vpo_constant-1ep

Qwen_1.5B-math-rDPO_5e-7_0.1lsmooth-1.0vpo_constant-1ep

llama-1e-6-1ep

Qwen_0.5-VDPO_5e-7_3.0vpo_constant_0.3label_smoothing

Qwen_0.5-rDPO_5e-7_1.0vpo_constant_0.3label_smoothing

pythia-2.8b-VIPO_5e-7_1.0vpo_constant-1ep

Qwen_1.5B-math-DPO_5e-6_1.0vpo_constant-10ep

Qwen_0.5-VDPO_3e-6_10.0vpo_constant-1ep_0.3flip

Qwen_0.5-IRPO_1e-6-3ep_0.01alp_0.5bdpo_lam_0dpop_lam

llama-DPOP_5e-7-1ep_0alp_0.5bdpo_lam_5dpop_lam

Qwen_0.5-DPOP_1e-6-3ep_0alp_0.5bdpo_lam_50dpop_lam

gemma-DPO_1e-6-3ep_0alp_0.5bdpo_lam_0dpop_lam

gemma-DPO_1e-7-1ep_0alp_0.5bdpo_lam_0dpop_lam

Qwen_0.5-VDPO_5e-7_0.3vpo_constant-1ep

Qwen2.5-0.5B_ultrainteract_sft_2e-5_1ep

Qwen_0.5-BDPO_1e-6-3ep_0alp_0.999bdpo_lam_0dpop_lam

Qwen_0.5-IRPO_1e-6-3ep_0.005alp_0.5bdpo_lam_0dpop_lam

llama-BDPO_1e-7-1ep_0alp_0.5bdpo_lam_0dpop_lam

Qwen_1.5B-math-cDPO_5e-7_0.3lsmooth-1.0vpo_constant-1ep

Qwen_1.5B-math-rDPO_5e-7_0.3lsmooth-1.0vpo_constant-1ep

Qwen_0.5-cDPO_5e-7_1.0vpo_constant_0.3label_smoothing

llama-VDPO_5e-7_1.0vpo_constant

Qwen_0.5-VDPO_5e-7_1.0vpo_constant_0.1label_smoothing

Qwen_0.5-cDPO_5e-7_0.1lsmooth-1.0vpo_constant-1ep

Qwen2.5-0.5B-SFT-2e-5-2ep-DPO_5e-7_3ep_0alp_0lam

Qwen2.5-0.5B-SFT-2e-5-2ep-DPOP_5e-6-3ep_0alp_5lam

Qwen_0.5-IPO_5e-7-3ep_0alp_0lam

Qwen_1.5B-math-VIPO_5e-6_3.0vpo_constant-5ep

pythia-2.8b-VIPO_5e-7_1.0vpo_const-1ep

pythia-2.8b-VIPO_5e-7_3.0vpo_const-1ep

Qwen_0.5-IRPO_1e-6-3ep_2alp_0.5bdpo_lam_0dpop_lam

Qwen_0.5-DPO_5e-7_1.0vpo_constant

Qwen_0.5-VDPO_5e-7_1.0vpo_constant

Qwen_0.5-cDPO_5e-7_1.0vpo_constant_0.1label_smoothing

llama-DPO_5e-7_1.0vpo_constant

Qwen2.5-0.5B-SFT-7e-5-3ep

Qwen2.5-0.5B-SFT-1e-5-5ep

Qwen2.5-0.5B-SFT-7e-5-5ep

Qwen2.5-0.5B-SFT-2e-5-2ep-DPO_7e-7_2ep_0alp_0lam

Qwen2.5-0.5B-SFT-2e-5-2ep-MDPO_1e-6_1ep_0alp_0lam

Qwen2.5-0.5B-SFT-2e-5-2ep-MDPO_5e-6-3ep_0alp_0lam

Qwen2.5-0.5B-SFT-2e-5-2ep-IRPO_5e-7-3ep_1alp_0lam

Qwen2.5-0.5B-SFT-2e-5-2ep-IRPO_1e-7-1ep_1alp_0lam

Qwen_0.5-DPOP_3e-7-2ep_0alp_5lam

Qwen_0.5-rDPO_1e-6-1ep_0vpo_const_0.1

Qwen_1.5B-math-DPO_5e-6_1.0vpo_constant-5ep

pythia-2.8b-VDPO_5e-7_1.0vpo_constant-1ep

Qwen_1.5B-math-IPO_5e-6_1.0vpo_constant-5ep

Qwen_1.5B-math-VIPO_5e-6_1.0vpo_constant-5ep

Qwen_1.5B-math-VIPO_5e-6_10.0vpo_constant-5ep

Qwen_1.5B-math-VDPO_5e-6_3.0vpo_constant-5ep

Qwen_1.5B-math-VDPO_5e-6_10.0vpo_constant-5ep

Qwen_1.5B-math-DPO_1e-5_1.0vpo_constant-5ep

Qwen_1.5B-math-DPO_1e-5_1.0vpo_constant-10ep

pythia-2.8b-DPO_1e-6_1.0vpo_constant-1ep

Qwen_1.5B-math-DPO_5e-5_1.0vpo_constant-10ep

Qwen_1.5B-math-DPO_5e-5_1.0vpo_constant-20ep

pythia-2.8b-IPO_5e-7_1.0vpo_constant-1ep

Qwen_1.5B-math-DPO_1e-4_1.0vpo_constant-10ep

pythia-2.8b-IPO_5e-7_1.0vpo_const-1ep

Qwen_1.5B-math-VDPO_1e-4_1.0vpo_constant-10ep

pythia-2.8b-VDPO_5e-7_3.0vpo_constant-1ep

pythia-2.8b-VDPO_5e-7_10.0vpo_constant-1ep

Qwen_0.5-VDPO_5e-7_1.0vpo_constant-1ep

Qwen_0.5-DPO_5e-7_1.0vpo_constant-1ep_0.3flip

Qwen_0.5-cDPO_5e-7_1.0vpo_constant-1ep_0.3flip

Qwen_0.5-DPO_3e-6_1.0vpo_constant-1ep_0.3flip

Qwen_0.5-VDPO_3e-6_1.0vpo_constant-1ep_0.3flip

Qwen_0.5-VDPO_3e-6_3.0vpo_constant-1ep_0.3flip

Qwen_0.5-cDPO_3e-6_1.0vpo_constant-1ep_0.3flip

Qwen_0.5-IPO_3e-6_1.0vpo_constant-1ep_0.3flip

Qwen_0.5-IRPO_5e-7-3ep_0.1alp_0.5bdpo_lam_0dpop_lam