abeja

11 models • 1 total models in database

Sort by:

gpt-neox-japanese-2.7b

The open PR is merged on 2022/9/14. You can use this model with v4.23 and higher versions of transformers as follows, This repository provides a 2.7B-parameter Japanese GPT-NeoX-based model. The model was trained by ABEJA, Inc Dataset The model was trained on Japanese CC-100, Japanese Wikipedia, and Japanese OSCAR. Tokenization The model uses a special sub-word tokenizer. Please refer the original repository or GPT-NeoX-Japanese in detail.

NaNK

license:mit

2,626

ABEJA Qwen2.5 7b Japanese V0.1

ABEJA-Qwen2.5-7b-Japanese-v0.1はQwen/Qwen2.5-7B-Instructをベースに日本語の学習をしたモデルです。通常の継続事前学習ではなく、abeja/ABEJA-Qwen2.5-32b-Japanese-v0.1をベースに蒸留学習を実施したモデルです。 Post-Traningは実施しておらず、ChatVector(Qwen/Qwen2.5-7B-InstructとQwen/Qwen2.5-7B の差分ベクトル)により指示追従性能をあげています。 - Hiroshi Kiyota - Keisuke Fujimoto - Kentaro Nakanishi - Kyo Hattori - Shinya Otani - Shogo Muranushi - Takuma Kume - Tomoki Manabe

NaNK

license:apache-2.0

751

ABEJA-QwQ32b-Reasoning-Japanese-v1.0

ABEJA-QwQ32b-Reasoning-Japanese-v1.0はabeja/ABEJA-Qwen2.5-32b-Japanese-v0.1()をベースとしたReasoningモデルです。 ABEJA-Qwen2.5-32b-Japanese-v0.1に対してQwen/QwQ-32BのChatVectorをマージしたあと、追加学習をすることでReasoningモデルとして日本語性能を確保しています。 ()Qwen/Qwen2.5-32B-Instructをベースに日本語中心とした継続事前学習を実施したモデルモデルマージで利用している QwQ-32B の特性を引き継いでおり、QwQ-32BのUsage-Gidelineに従った利用を推奨します。 - 強制的に思考過程を経るために ` \n` の後から出力を開始してください。applychattemplateを使いaddgenerationprompt=Trueとすると、自動的に適用されます。 - Temperature=0.6, TopP=0.95, MinP=0, TopKを20から40の間、といったパラメータを推奨します。（ここの値を大きく変えると精度が落ちることを確認しています） - multi-turnでの会話では、会話履歴の中には最終的な出力のみで` `で囲まれた思考過程は含めないでください。この機能もすでにapplychattemplateに含んでいます。 - Systemプロンプトは不要です。最初にrole:userから始めてください。 - Hiroshi Kiyota - Keisuke Fujimoto - Kentaro Nakanishi - Kyo Hattori - Shinya Otani - Shogo Muranushi - Takuma Kume - Tomoki Manabe

NaNK

license:apache-2.0