sonoisa
sentence-bert-base-ja-mean-tokens-v2
バージョン1よりも良いロス関数であるMultipleNegativesRankingLossを用いて学習した改良版です。 手元の非公開データセットでは、バージョン1よりも1.5〜2ポイントほど精度が高い結果が得られました。 事前学習済みモデルとしてcl-tohoku/bert-base-japanese-whole-word-maskingを利用しました。 従って、推論の実行にはfugashiとipadicが必要です(pip install fugashi ipadic)。 モデル名を"sonoisa/sentence-bert-base-ja-mean-tokens-v2"に書き換えれば、本モデルを利用した挙動になります。
sentence-bert-base-ja-mean-tokens
t5-base-japanese-v1.1
This is a T5 (Text-to-Text Transfer Transformer) model pretrained on Japanese corpus. 次の日本語コーパス(約100GB)を用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) v1.1アーキテクチャのモデルです。 Wikipediaの日本語ダンプデータ (2022年6月27日時点のもの) OSCARの日本語コーパス CC-100の日本語コーパス このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。 本モデルにも、大規模コーパスを用いた言語モデルにつきまとう、学習データの内容の偏りに由来する偏った(倫理的ではなかったり、有害だったり、バイアスがあったりする)出力結果になる問題が潜在的にあります。 この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。 SentencePieceトークナイザーの学習には、上記WikipediaとCC-100を約10:1の比率で混ぜたデータを用いました。byte-fallbackあり設定で学習しており、実質未知語が発生しません。 本モデルの作者は本モデルを作成するにあたって、その内容、機能等について細心の注意を払っておりますが、モデルの出力が正確であるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。本モデルの利用により、万一、利用者に何らかの不都合や損害が発生したとしても、モデルやデータセットの作者や作者の所属組織は何らの責任を負うものではありません。利用者には本モデルやデータセットの作者や所属組織が責任を負わないことを明確にする義務があります。
t5-base-japanese
sentence-luke-japanese-base-lite
日本語Sentence-BERTモデルと同一のデータセットと設定で学習しました。 手元の非公開データセットでは、日本語Sentence-BERTモデルと比べて定量的な精度が同等〜0.5pt程度高く、定性的な精度は本モデルの方が高い結果でした。 事前学習済みモデルとしてstudio-ousia/luke-japanese-base-liteを利用させていただきました。 推論の実行にはSentencePieceが必要です(pip install sentencepiece)。