princeton-nlp

✓ VerifiedResearch Lab

Princeton Natural Language Processing Group

165 models • 52 total models in database

Sort by:

Llama-3-8B-ProLong-64k-Instruct

ProLong ( Pr incet o n long -context language models) is a family of long-context models that are continued trained and supervised fine-tuned from Llama-3-8B, with a maximum context window of 512K tokens. Our main ProLong model is one of the best-performing long-context models at the 10B scale (evaluated by HELMET). To train this strong long-context model, we conduct thorough ablations on the long-context pre-training data, SFT data, and numerous other design choices. We demonstrate our findings in our paper, How to Train Long-Context Language Models (Effectively). Authors: Tianyu Gao\, Alexander Wettig\, Howard Yen, Danqi Chen ( equal contribution) - princetonnlp/Llama-3-8B-ProLong-64k-Base - princetonnlp/Llama-3-8B-ProLong-64k-Instruct ← you are here! - princetonnlp/Llama-3-8B-ProLong-512k-Base - ⭐ princetonnlp/Llama-3-8B-ProLong-512k-Instruct Here are some quick facts about our main ProLong model: princeton-nlp/Llama-3-8B-ProLong-512k-Instruct. Base model: meta-llama/Meta-Llama-3-8B-Instruct Long-context continued training: 20B tokens on 64K training data (princeton-nlp/prolong-data-64K), and 20B tokens on 512K training data (princeton-nlp/prolong-data-512K) Supervised fine-tuning (SFT): UltraChat Maximum context window: 512K tokens ProLong performance on HELMET averaged over 32K, 64K, and 128K lengths. All models are instruct models.

princeton-nlp

sup-simcse-bert-base-uncased

unsup-simcse-bert-base-uncased

sup-simcse-roberta-large

sup-simcse-roberta-base

Llama-3-8B-ProLong-64k-Instruct

Llama-3-8B-ProLong-512k-Instruct

Llama-3-8B-ProLong-64k-Base

Llama-3-8B-ProLong-512k-Base

Sheared-LLaMA-1.3B

unsup-simcse-roberta-base

warm-start__sft__nothink__Llama-3.1-8B-Instruct

gemma-2-9b-it-SimPO

QuRater-1.3B

Llama-3-Base-8B-SFT

Sheared-LLaMA-2.7B-ShareGPT

Sheared-LLaMA-2.7B

Sheared-LLaMA-1.3B-ShareGPT

unsup-simcse-roberta-large

SWE-Llama-7b

Sheared-LLaMA-1.3B-Pruned

warm-start__sft__nothink__Qwen2.5-7B-Instruct

AutoCompressor-Llama-2-7b-6k

warm-start__grpo__nothink__Qwen2.5-7B-Instruct

warm-start__dpo__nothink__Qwen2.5-7B-Instruct

SWE-Llama-13b

sup-simcse-bert-large-uncased

Mistral-7B-Base-SFT-RRHF

unsup-simcse-bert-large-uncased

Llama-3-Instruct-8B-SimPO

Llama-3-Base-8B-SFT-DPO

Mistral-7B-Base-SFT-IPO

Mistral-7B-Base-SFT-CPO

Mistral-7B-Base-SFT-DPO

Mistral-7B-Base-SFT-RDPO

Mistral-7B-Base-SFT-SLiC-HF

Mistral-7B-Base-SFT-KTO

Llama-3-Instruct-8B-DPO

Mistral-7B-Base-SFT-SimPO

Llama-3-Instruct-8B-DPO-v0.2

Llama-3-Instruct-8B-ORPO-v0.2

warm-start__dpo__think__Qwen2.5-7B

Llama-3-Instruct-8B-SimPO-v0.2

Llama-3-Base-8B-SFT-SimPO

gemma-2-9b-it-DPO

Llama-3-Instruct-8B-IPO

Mistral-7B-Instruct-SimPO

mabel-bert-base-uncased

Llama-3-Instruct-8B-CPO

Llama-3-Instruct-8B-KTO-v0.2

Llama-3-Instruct-8B-KTO

Mistral-7B-Instruct-RDPO

Llama-3-Base-8B-SFT-SLiC-HF

Llama-3-Instruct-8B-CPO-v0.2

Llama-3-Base-8B-SFT-KTO

Llama-3-Base-8B-SFT-RRHF

Llama-3-Instruct-8B-RRHF

Llama-3-Instruct-8B-SLiC-HF

Llama-3-Instruct-8B-SLiC-HF-v0.2

Llama-3-Instruct-8B-RDPO-v0.2

warm-start__sft__think__Qwen2.5-7B

Llama-3-Base-8B-SFT-IPO

Llama-3-Instruct-8B-ORPO

Llama-3-Instruct-8B-RDPO

Llama-3-Base-8B-SFT-ORPO

Llama-3-Base-8B-SFT-RDPO

Mistral-7B-Instruct-DPO

Llemma-7B-32K-MathMix

Mistral-7B-Instruct-IPO

Llama-3-Base-8B-SFT-CPO

Llama-3-Instruct-8B-IPO-v0.2

Mistral-7B-Instruct-KTO

Mistral-7B-Instruct-ORPO

Mistral-7B-Instruct-CPO

Mistral-7B-Instruct-RRHF

Mistral-7B-Instruct-SLiC-HF

Llama-3-Instruct-8B-RRHF-v0.2

AutoCompressor-2.7b-6k

RMT-1.3b-30k

warm-start__sft__think__Llama-3.1-8B-Instruct

warm-startsftnothink__Llama-3.1-8B-Instruct

warm-startsftnothink__Qwen2.5-7B-Instruct

warm-startgrponothink__Qwen2.5-7B-Instruct

warm-startdponothink__Qwen2.5-7B-Instruct

warm-startdpothink__Qwen2.5-7B

warm-startsftthink__Qwen2.5-7B

warm-startsftthink__Llama-3.1-8B-Instruct

warm-startgrpothink__Qwen2.5-7B-Instruct

warm-startsftthink__Llama-3.1-8B

warm-startsftnothink__Qwen2.5-7B

warm-startpponothink__Qwen2.5-7B

warm-startgrpothink__Qwen2.5-7B

warm-startsftthink__Qwen2.5-7B-Instruct

warm-startsftnothink__Llama-3.1-8B

warm-startdpothink__Llama-3.1-8B-Instruct

warm-startpponothink__Llama-3.1-8B

zerobasenothink__Qwen2.5-7B

zerodpothink__Llama-3.1-8B

zerodponothink__Llama-3.1-8B

zeropponothink__Qwen2.5-7B

zerogrpothink__Qwen2.5-7B

zerobasethink__Qwen2.5-7B

zeroppothink__Qwen2.5-7B

zerogrponothink__Qwen2.5-7B

warm-startdpothink__Llama-3.1-8B

warm-startdpothink__Qwen2.5-7B-Instruct

warm-startdponothink__Llama-3.1-8B

warm-startdponothink__Qwen2.5-7B

warm-startdponothink__Llama-3.1-8B-Instruct

warm-startppothink__Llama-3.1-8B

warm-startppothink__Qwen2.5-7B

warm-startppothink__Llama-3.1-8B-Instruct

warm-startppothink__Qwen2.5-7B-Instruct

warm-startpponothink__Llama-3.1-8B-Instruct

warm-startpponothink__Qwen2.5-7B-Instruct

zerobasethink__Llama-3.1-8B