abeja

11 models • 1 total models in database
Sort by:

gpt-neox-japanese-2.7b

The open PR is merged on 2022/9/14. You can use this model with v4.23 and higher versions of transformers as follows, This repository provides a 2.7B-parameter Japanese GPT-NeoX-based model. The model was trained by ABEJA, Inc Dataset The model was trained on Japanese CC-100, Japanese Wikipedia, and Japanese OSCAR. Tokenization The model uses a special sub-word tokenizer. Please refer the original repository or GPT-NeoX-Japanese in detail.

NaNK
license:mit
2,626
58

ABEJA Qwen2.5 7b Japanese V0.1

ABEJA-Qwen2.5-7b-Japanese-v0.1はQwen/Qwen2.5-7B-Instructをベースに日本語の学習をしたモデルです。 通常の継続事前学習ではなく、abeja/ABEJA-Qwen2.5-32b-Japanese-v0.1をベースに蒸留学習を実施したモデルです。 Post-Traningは実施しておらず、ChatVector(Qwen/Qwen2.5-7B-InstructとQwen/Qwen2.5-7B の差分ベクトル)により指示追従性能をあげています。 - Hiroshi Kiyota - Keisuke Fujimoto - Kentaro Nakanishi - Kyo Hattori - Shinya Otani - Shogo Muranushi - Takuma Kume - Tomoki Manabe

NaNK
license:apache-2.0
751
10

ABEJA-Qwen2.5-32b-Japanese-v0.1

NaNK
license:apache-2.0
663
11

ABEJA-Qwen2.5-32b-Japanese-v1.0

NaNK
license:apache-2.0
408
5

gpt2-large-japanese

license:mit
255
18

ABEJA-QwQ32b-Reasoning-Japanese-v1.0

ABEJA-QwQ32b-Reasoning-Japanese-v1.0はabeja/ABEJA-Qwen2.5-32b-Japanese-v0.1()をベースとしたReasoningモデルです。 ABEJA-Qwen2.5-32b-Japanese-v0.1に対してQwen/QwQ-32BのChatVectorをマージしたあと、追加学習をすることでReasoningモデルとして日本語性能を確保しています。 ()Qwen/Qwen2.5-32B-Instructをベースに日本語中心とした継続事前学習を実施したモデル モデルマージで利用している QwQ-32B の特性を引き継いでおり、QwQ-32BのUsage-Gidelineに従った利用を推奨します。 - 強制的に思考過程を経るために ` \n` の後から出力を開始してください。applychattemplateを使いaddgenerationprompt=Trueとすると、自動的に適用されます。 - Temperature=0.6, TopP=0.95, MinP=0, TopKを20から40の間、といったパラメータを推奨します。(ここの値を大きく変えると精度が落ちることを確認しています) - multi-turnでの会話では、会話履歴の中には最終的な出力のみで` `で囲まれた思考過程は含めないでください。この機能もすでにapplychattemplateに含んでいます。 - Systemプロンプトは不要です。最初にrole:userから始めてください。 - Hiroshi Kiyota - Keisuke Fujimoto - Kentaro Nakanishi - Kyo Hattori - Shinya Otani - Shogo Muranushi - Takuma Kume - Tomoki Manabe

NaNK
license:apache-2.0
26
13

Mixtral-8x7B-Instruct-v0.1-japanese

NaNK
license:apache-2.0
6
0

ABEJA-Qwen3-14B-Agentic-256k-v0.1

NaNK
license:apache-2.0
5
0

Mixtral-8x7B-v0.1-japanese

NaNK
license:apache-2.0
4
1

Mixtral-8x7B-Instruct-v0.1-japanese-alpha-merged

NaNK
license:apache-2.0
2
0

Mixtral-8x7B-Instruct-v0.1-japanese-202408

NaNK
2
0