piccolo-base-zh

Name: piccolo-base-zh
Author: sensenova

—

sensenova

Embedding Model

OTHER

New

86 downloads

Early-stage

Try on Hugging Face Add to Compare

Edge AI:

Mobile

Laptop

Server

Unknown

Mobile

Laptop

Server

Quick Summary

piccolo是一个通用embedding模型(中文), 由来自商汤科技的通用模型组完成训练。piccolo借鉴了E5以及GTE的训练流程，采用了两阶段的训练方式。在第一阶段中，我们搜集和爬取了4亿的中文文本对(可视为弱监督文本对数据)，并采用二元组的softmax对比学习损失来优化模型。在第二阶段中，我们搜集整理...

Code Examples

Usagepython

# for s2s dataset, you can use piccolo as below
# 对于短对短数据集，下面是通用的使用方式
from sentence_transformers import SentenceTransformer
sentences = ["数据1", "数据2"]
model = SentenceTransformer('sensenova/piccolo-base-zh')
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

# for s2p dataset, we recommend to add instruction for passage retrieval
# 对于短对长数据集，我们推荐添加instruction，来帮助模型更好地进行检索。
from sentence_transformers import SentenceTransformer
queries = ['query_1', 'query_2']
passages = ["doc_1", "doc_2"]

model = SentenceTransformer('sensenova/piccolo-base-zh')
q_embeddings = model.encode(["查询：" + q for q in queries], normalize_embeddings=True)
p_embeddings = model.encode(["结果：" + p for p in passages], normalize_embeddings=True)
scores = q_embeddings @ p_embeddings.T

Usagepython

# for s2s dataset, you can use piccolo as below
# 对于短对短数据集，下面是通用的使用方式
from sentence_transformers import SentenceTransformer
sentences = ["数据1", "数据2"]
model = SentenceTransformer('sensenova/piccolo-base-zh')
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

# for s2p dataset, we recommend to add instruction for passage retrieval
# 对于短对长数据集，我们推荐添加instruction，来帮助模型更好地进行检索。
from sentence_transformers import SentenceTransformer
queries = ['query_1', 'query_2']
passages = ["doc_1", "doc_2"]

model = SentenceTransformer('sensenova/piccolo-base-zh')
q_embeddings = model.encode(["查询：" + q for q in queries], normalize_embeddings=True)
p_embeddings = model.encode(["结果：" + p for p in passages], normalize_embeddings=True)
scores = q_embeddings @ p_embeddings.T

Usagepython

# for s2s dataset, you can use piccolo as below
# 对于短对短数据集，下面是通用的使用方式
from sentence_transformers import SentenceTransformer
sentences = ["数据1", "数据2"]
model = SentenceTransformer('sensenova/piccolo-base-zh')
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

# for s2p dataset, we recommend to add instruction for passage retrieval
# 对于短对长数据集，我们推荐添加instruction，来帮助模型更好地进行检索。
from sentence_transformers import SentenceTransformer
queries = ['query_1', 'query_2']
passages = ["doc_1", "doc_2"]

model = SentenceTransformer('sensenova/piccolo-base-zh')
q_embeddings = model.encode(["查询：" + q for q in queries], normalize_embeddings=True)
p_embeddings = model.encode(["结果：" + p for p in passages], normalize_embeddings=True)
scores = q_embeddings @ p_embeddings.T

Deploy This Model

Production-ready deployment in minutes

Together.ai

Instant API access to this model

Fastest API

Production-ready inference API. Start free, scale to millions.

Try Free API

Replicate

One-click model deployment

Easiest Setup

Run models in the cloud with simple API. No DevOps required.

Deploy Now

Disclosure: We may earn a commission from these partners. This helps keep LLMYourWay free.