webbigdata
C3TR-Adapter_gguf
gemma-2-2b-jpn-it-translate-gguf
ALMA-7B-Ja-V2
FanFic-Illustrator_gguf
Qwen3-0.6B_WBD
C3TR-Adapter
ALMA-7B-Ja
VoiceCore_gguf
VoiceCore
ALMA-7B-Ja-V2-GPTQ-Ja-En
ALMA-7B-Ja-GPTQ-Ja-En
gemma-2-2b-jpn-it-translate
nanochat-jp_base
karpathyさん(元スタンフォード、元テスラ、元OpenAI)の教育目的PJであるnanochat のd20版を日本語データ kajuma/ABEJA-CC-JA-edu 10% を使って事前学習させたモデルです。 事前学習のみのため、入力された文章の続きを書く事(補完)しかできませんが、日本語が問題なく補完できることは確認済です。 として配置する事で、学習の続きとしてmid train(中間学習), SFT(教師あり微調整), RL(強化学習)を実行する事ができると思います。 中間学習, 教師あり微調整, 強化学習は比較的少ないデータで実行可能なのでノード数とバッチサイズを減らせばH100 x 8台をレンタルせずともローカルPCなどで試行錯誤が実行可能です。 1. nanochatをgit clone 2. speedrun.shを動かす(失敗するが仮想環境.venvは作ってくれる) 3. source .venv/bin/activate 4. ~/.cache/nanochat/に本リポジトリのbasecheckpointsjpとtokenizerを配置 5. 以下のスクリプトをnanochatディレクトリ配下で動かす Hardware - Platform: Linux - CPUs: 64 cores (64 logical) - Memory: 2015.6 GB - GPUs: 8x NVIDIA H100 80GB HBM3 - GPU Memory: 633.5 GB total - CUDA Version: 12.8 - Hourly Rate: $24.00/hour Bloat - Characters: 382,832 - Lines: 9,485 - Files: 57 - Tokens (approx): 95,708 - Dependencies (uv.lock lines): 2,004 Tokenizer evaluation timestamp: 2025-10-16 16:25:26 | Text Type | Bytes | GPT-2 Tokens | GPT-2 Ratio | Ours Tokens | Ours Ratio | Relative Diff % | |-----------|-------|--------------|--------------|-------------|------------|-----------------| | news | 1819 | 404 | 4.50 | 705 | 2.58 | -74.5% | | korean | 893 | 745 | 1.20 | 729 | 1.22 | +2.1% | | code | 1259 | 576 | 2.19 | 708 | 1.78 | -22.9% | | math | 1834 | 936 | 1.96 | 1063 | 1.73 | -13.6% | | science | 1112 | 260 | 4.28 | 455 | 2.44 | -75.0% | | japanese | 3618 | 2056 | 1.76 | 630 | 5.74 | +69.4% | | Text Type | Bytes | GPT-4 Tokens | GPT-4 Ratio | Ours Tokens | Ours Ratio | Relative Diff % | |-----------|-------|--------------|--------------|-------------|------------|-----------------| | news | 1819 | 387 | 4.70 | 705 | 2.58 | -82.2% | | korean | 893 | 364 | 2.45 | 729 | 1.22 | -100.3% | | code | 1259 | 309 | 4.07 | 708 | 1.78 | -129.1% | | math | 1834 | 832 | 2.20 | 1063 | 1.73 | -27.8% | | science | 1112 | 249 | 4.47 | 455 | 2.44 | -82.7% | | japanese | 3618 | 1458 | 2.48 | 630 | 5.74 | +56.8% | Base model training Japanese timestamp: 2025-10-16 16:17:09 - run: d20-jp-1760620493 - depth: 20 - maxseqlen: 2048 - targetparamdataratio: 20 - numiterations: -1 - devicebatchsize: 32 - totalbatchsize: 524,288 - embeddinglr: 0.2000 - unembeddinglr: 0.0040 - matrixlr: 0.0200 - weightdecay: 0.0000 - evalevery: 250 - evaltokens: 10,485,760 - DATASETREPOID: kajuma/ABEJA-CC-JA-edu - CONFIGNAME: 10% - SPLIT: train - TOTALSHARDS: 378 - DOWNLOADCACHEDIR: downloadcachejp - Number of parameters: 560,988,160 - Number of training tokens: 11,219,763,200 - Minimum validation bpb: 0.6473 - Final validation bpb: 0.6682 謝辞 以下の方たちのお力添えがなければこのモデルは完成しませんでした。ありがとうございます! - karpathyさん - kajumaさん - ABEJA社 - 日本語でブログやWebサイトを執筆してくださった皆様
VoiceCore_smoothquant
C3TR-Adapter_gptq
FanFic-Illustrator
VoiceCore_gptq
webbigdata/VoiceCoreをvLLMで高速に動かすためにgptq(W4A16)量子化したモデルです 詳細はwebbigdata/VoiceCoreのモデルカードを御覧ください This is a model quantized using gptq(W4A16) to run webbigdata/VoiceCore at high speed using vLLM. See the webbigdata/VoiceCore model card for details. vLLMはAMDのGPUでも動作するそうですがチェックは出来ていません。 Mac(CPU)でも動くようですが、gguf版を使った方が早いかもしれません vLLM seems to work with AMD GPUs, but I haven't checked. It also seems to work with Mac (CPU), but gguf version seems to be better. 以下はLinuxのNvidia GPU版のセットアップ手順です Below are the setup instructions for the Nvidia GPU version of Linux. vLLMをサーバーとして動作させてストリーミングでアクセスさせ、クライアントが逐次再生するデモです。 品質は劣化してしまいますがRTX 4060くらいの性能をもつGPUなら疑似リアルタイム再生が実現できます。 理想は雑音が生成されないタイミングで生成する事ですが、まだ実現出来ておらず、実証実験レベルとお考え下さい Client side scripyt (Windows前提) SERVERURLを書き換えてください