shibing624

44 models • 6 total models in database
Sort by:

text2vec-base-chinese

--- license: apache-2.0 pipeline_tag: sentence-similarity tags: - Sentence Transformers - sentence-similarity - sentence-transformers datasets: - shibing624/nli_zh language: - zh library_name: sentence-transformers ---

license:apache-2.0
288,027
760

text2vec-base-multilingual

shibing624/text2vec-base-multilingual This is a CoSENT(Cosine Sentence) model: shibing624/text2vec-base-multilingual. It maps sentences to a 384 dimensional dense vector space and can be used for tasks like sentence embeddings, text matching or semantic search. - training dataset: https://huggingface.co/datasets/shibing624/nli-zh-all/tree/main/text2vec-base-multilingual-dataset - base model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 - maxseqlength: 256 - best epoch: 4 - sentence embedding dim: 384 Evaluation For an automated evaluation of this model, see the Evaluation Benchmark: text2vec Languages Available languages are: de, en, es, fr, it, nl, pl, pt, ru, zh | Arch | BaseModel | Model | ATEC | BQ | LCQMC | PAWSX | STS-B | SOHU-dd | SOHU-dc | Avg | QPS | |:-----------|:-------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------|:-----:|:-----:|:-----:|:-----:|:-----:|:-------:|:-------:|:---------:|:-----:| | Word2Vec | word2vec | w2v-light-tencent-chinese | 20.00 | 31.49 | 59.46 | 2.57 | 55.78 | 55.04 | 20.70 | 35.03 | 23769 | | SBERT | xlm-roberta-base | sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 | 18.42 | 38.52 | 63.96 | 10.14 | 78.90 | 63.01 | 52.28 | 46.46 | 3138 | | Instructor | hfl/chinese-roberta-wwm-ext | moka-ai/m3e-base | 41.27 | 63.81 | 74.87 | 12.20 | 76.96 | 75.83 | 60.55 | 57.93 | 2980 | | CoSENT | hfl/chinese-macbert-base | shibing624/text2vec-base-chinese | 31.93 | 42.67 | 70.16 | 17.21 | 79.30 | 70.27 | 50.42 | 51.61 | 3008 | | CoSENT | hfl/chinese-lert-large | GanymedeNil/text2vec-large-chinese | 32.61 | 44.59 | 69.30 | 14.51 | 79.44 | 73.01 | 59.04 | 53.12 | 2092 | | CoSENT | nghuyong/ernie-3.0-base-zh | shibing624/text2vec-base-chinese-sentence | 43.37 | 61.43 | 73.48 | 38.90 | 78.25 | 70.60 | 53.08 | 59.87 | 3089 | | CoSENT | nghuyong/ernie-3.0-base-zh | shibing624/text2vec-base-chinese-paraphrase | 44.89 | 63.58 | 74.24 | 40.90 | 78.93 | 76.70 | 63.30 | 63.08 | 3066 | | CoSENT | sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 | shibing624/text2vec-base-multilingual | 32.39 | 50.33 | 65.64 | 32.56 | 74.45 | 68.88 | 51.17 | 53.67 | 4004 | 说明: - 结果评测指标:spearman系数 - `shibing624/text2vec-base-chinese`模型,是用CoSENT方法训练,基于`hfl/chinese-macbert-base`在中文STS-B数据训练得到,并在中文STS-B测试集评估达到较好效果,运行examples/trainingsuptextmatchingmodel.py代码可训练模型,模型文件已经上传HF model hub,中文通用语义匹配任务推荐使用 - `shibing624/text2vec-base-chinese-sentence`模型,是用CoSENT方法训练,基于`nghuyong/ernie-3.0-base-zh`用人工挑选后的中文STS数据集shibing624/nli-zh-all/text2vec-base-chinese-sentence-dataset训练得到,并在中文各NLI测试集评估达到较好效果,运行examples/trainingsuptextmatchingmodeljsonldata.py代码可训练模型,模型文件已经上传HF model hub,中文s2s(句子vs句子)语义匹配任务推荐使用 - `shibing624/text2vec-base-chinese-paraphrase`模型,是用CoSENT方法训练,基于`nghuyong/ernie-3.0-base-zh`用人工挑选后的中文STS数据集shibing624/nli-zh-all/text2vec-base-chinese-paraphrase-dataset,数据集相对于shibing624/nli-zh-all/text2vec-base-chinese-sentence-dataset加入了s2p(sentence to paraphrase)数据,强化了其长文本的表征能力,并在中文各NLI测试集评估达到SOTA,运行examples/trainingsuptextmatchingmodeljsonldata.py代码可训练模型,模型文件已经上传HF model hub,中文s2p(句子vs段落)语义匹配任务推荐使用 - `shibing624/text2vec-base-multilingual`模型,是用CoSENT方法训练,基于`sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2`用人工挑选后的多语言STS数据集shibing624/nli-zh-all/text2vec-base-multilingual-dataset训练得到,并在中英文测试集评估相对于原模型效果有提升,运行examples/trainingsuptextmatchingmodeljsonldata.py代码可训练模型,模型文件已经上传HF model hub,多语言语义匹配任务推荐使用 - `w2v-light-tencent-chinese`是腾讯词向量的Word2Vec模型,CPU加载使用,适用于中文字面匹配任务和缺少数据的冷启动情况 - QPS的GPU测试环境是Tesla V100,显存32GB Usage (text2vec) Using this model becomes easy when you have text2vec installed: Usage (HuggingFace Transformers) Without text2vec, you can use the model like this: First, you pass your input through the transformer model, then you have to apply the right pooling-operation on-top of the contextualized word embeddings. Usage (sentence-transformers) sentence-transformers is a popular library to compute dense vector representations for sentences. Our model is intented to be used as a sentence and short paragraph encoder. Given an input text, it ouptuts a vector which captures the semantic information. The sentence vector may be used for information retrieval, clustering or sentence similarity tasks. By default, input text longer than 256 word pieces is truncated. We use the pretrained `sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2` model. Please refer to the model card for more detailed information about the pre-training procedure. We fine-tune the model using a contrastive objective. Formally, we compute the cosine similarity from each possible sentence pairs from the batch. We then apply the rank loss by comparing with true pairs and false pairs. Citing & Authors This model was trained by text2vec.

license:apache-2.0
115,125
58

text2vec-base-chinese-paraphrase

license:apache-2.0
16,059
78

macbert4csc-base-chinese

MacBERT for Chinese Spelling Correction(macbert4csc) Model 中文拼写纠错模型 `macbert4csc-base-chinese` evaluate SIGHAN2015 test data: | | Correct-Precision | Correct-Recall | Correct-F1 | |--|--|--|--| | C...

license:apache-2.0
5,979
112

bert4ner-base-chinese

BERT for Chinese Named Entity Recognition(bert4ner) Model 中文实体识别模型

license:apache-2.0
5,396
33

text2vec-bge-large-chinese

license:apache-2.0
1,563
41

chinese-alpaca-plus-13b-hf

NaNK
llama
669
35

chinese-llama-plus-13b-hf

NaNK
llama
663
19

mengzi-t5-base-chinese-correction

license:apache-2.0
551
33

Chinese Alpaca Plus 7b Hf

- 进一步扩充了训练数据,其中LLaMA扩充至120G文本(通用领域),Alpaca扩充至4M指令数据(重点增加了STEM相关数据) - Alpaca训练时采用了更大的rank,相比原版具有更低的验证集损失 - 评测结果显示,Alpaca-Plus-7B相比基础版Alpaca-7B效果更优,部分任务接近或超过13B版本 - 这一轮比拼:7B获得65.3分,13B获得70.9分,Plus-7B效果75.3分,具体评测结果请参考效果评测 本模型是`原生LLaMA-7B`合并`中文LLaMA LoRA`和`中文Alpaca LoRA`后的模型权重`chinese-alpaca-plus-7b-hf`,并转化为HuggingFace版本权重(.bin文件),可以直接使用或者继续训练。 13b-hf权重链接:https://huggingface.co/shibing624/chinese-alpaca-plus-13b-hf

NaNK
llama
444
53

text2vec-base-chinese-sentence

license:apache-2.0
431
55

chinese-text-correction-1.5b

NaNK
license:apache-2.0
350
8

parrots-chinese-roberta-wwm-ext-large

license:apache-2.0
336
2

parrots-chinese-hubert-base

license:apache-2.0
248
1

bart4csc-base-chinese

license:apache-2.0
134
29

chatglm3-6b-csc-chinese-lora

NaNK
license:apache-2.0
99
41

chinese-text-correction-7b

NaNK
license:apache-2.0
71
18

ziya-llama-13b-medical-merged

`shibing624/ziya-llama-13b-medical-merged` evaluate test data: |inputtext|predict| |:-- |:--- | |一岁宝宝发烧能吃啥药?|孩子的身体是很脆弱的,如果不注意保护好自己就会出现各种疾病。有些家长在看到孩子生病后都非常着急,想要立刻给他们用药治疗,但其实并没有那么简单,因为每个人对于药物的敏感度和耐受性都是不同的,所以我们需要根据具体情况来选择合适的方法进行治疗才可以达到最佳效果。1、首先大多数小儿退热药中含有解热镇痛成分阿司匹林或布洛芬等,这类药品虽然副作用较少,但也存在过量使用引起胃肠道损伤甚至消化道溃疡出血的风险;2、还有部分小儿退热药中含有扑尔敏等抗组胺药,它们本身属于处方药,应该严格按照医嘱服用,切勿擅自加减剂量或者延长用药时间;3、此外,某些小儿退热药中含有维生素C及葡萄糖酸钙等营养补充剂,只有当患儿伴随脱水症状(如口渴、尿色深)时才考虑添加,否则容易造成电解质紊乱。| 在中文开放测试集中的表现优异,继承了两方面的优势:1)微调训练的底座是Ziya-LLaMA-13B模型,是较强的中英文底座模型,2)微调使用的是高质量240万条中英文医疗指令数据集,和多种通用指令数据集,微调后的模型在医疗行业答复能力达到领先水平,在通用问题上的答复能力不弱于LLaMA-13B。 Usage 本项目开源在 github repo: - shibing624/textgen - shibing624/MedicalGPT Usage (HuggingFace Transformers) Without textgen, you can use the model like this: First, you pass your input through the transformer model, then you get the generated sentence. | Human | Assitant | |------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | 小孩发烧怎么办 | 宝宝的抵抗力是比较差的,所以很容易就会出现感冒或者其他疾病。如果宝宝在平时没有注意保暖,那么也可能导致身体受凉而引起了感冒等症状,这样不仅对于健康造成影响,还可能让宝宝出现高热的情况。因此当家长们发现自己的宝宝出现了高热的问题之后一定要及早进行治疗和护理才好。 1、首先我们应该给宝宝服用退烧药物来帮助降温,但是千万不要盲目使用退烧药物,否则只会加重宝宝的病情,最好带着宝宝到医院去检查清楚具体原因之后再针对性地采取措施处理。 2、另外大人们也需要做好预防工作,尤其是天气变化的时候更应该多关心下宝宝的身体状态,避免宝宝受寒受凉从而诱发各种疾病,同时也要尽量减少宝宝接触细菌病毒的机会,增强宝宝的免疫力。 3、除了上面两点之外,大人们还可以通过按摩推拿穴位的方式来缓解宝宝的病痛,促进血液循环,提升新陈代谢速度,达到快速消炎止疼的效果 | | 一岁宝宝发烧能吃啥药? | 孩子的身体是很脆弱的,如果不注意保护好自己就会出现各种疾病。有些家长在看到孩子生病后都非常着急,想要立刻给他们用药治疗,但其实并没有那么简单,因为每个人对于药物的敏感度和耐受性都是不同的,所以我们需要根据具体情况来选择合适的方法进行治疗才可以达到最佳效果。1、首先大多数小儿退热药中含有解热镇痛成分阿司匹林或布洛芬等,这类药品虽然副作用较少,但也存在过量使用引起胃肠道损伤甚至消化道溃疡出血的风险;2、还有部分小儿退热药中含有扑尔敏等抗组胺药,它们本身属于处方药,应该严格按照医嘱服用,切勿擅自加减剂量或者延长用药时间;3、此外,某些小儿退热药中含有维生素C及葡萄糖酸钙等营养补充剂,只有当患儿伴随脱水症状(如口渴、尿色深)时才考虑添加,否则容易造成电解质紊乱。 | | 肛门病变可能是什么疾病的症状 | 痔疮、直肠息肉等。 | | 医生,您好白带增多泛黄怎么回事? | 你这种情况考虑可能会是阴道炎症引起的建议平时留意卫生清洁,勤换洗衣物内裤,必要时去正规公立医院妇科复诊做分泌物常规等相关检查明确病因后对症治疗,不同原因所致的疾病在临床表现上也存在差异性,如果患者出现了类似于的症状应当及早到专业、权威的医院进行详细的检验和救治 | | 药流后有巧克力白带是没流干净吗 | 在日常生活中,我们要或多或少了解一些常见疾病的相关知识,不仅能起到增加知识水平的作用,更能让自己更好地预防此类疾病的产生。很多女性都会出现月经紊乱、腹痛等症状,这时候就需要考虑妇科炎症可能,比如说宫颈糜烂和盆腔积液。那么下面小编来给大家介绍一种情况:药物流产后白带呈巧克力色怎么回事?1、首先,对于药物流产之后发现阴道分泌物异常,应该及时去医院做检查确诊具体原因,然后再根据结果进行治疗调理。2、其次,由于每个人身体素质以及患病程度存在差别,所以采取的措施也不尽相同,但无论选择哪种方式处理,都必须严格按照规定剂量服用,并且注意观察副作用反映情况,若出现明显不适感觉,则应立即停止使用。3、最后,建议你保持外阴清洁卫生,勤换内裤,避免吃辛辣刺激食品,而且还要禁忌房事,否则容易引起交叉感染影响恢复健康。 | | 维胺酯维E乳膏能治理什么疾病 | 皮肤淀粉样变性;脂溢性角化症 | | 痤疮是什么原因导致的? | 痤疮,又称青春痘、粉刺。它主要发生在面部和胸背部位,表现为黑头粉刺、白头粉刺、丘疹、脓疱、结节等多种形式。其中以黑头粉刺最常见,约占全身皮肤病患者的70%左右。那么,痤疮是什么原因引起的呢?下面就给大家介绍一些相关内容。1、雄性激素分泌过旺:男女都会长痘痘,但是女孩子比较喜欢用化妆品来掩盖脸上的问题,而且很多人不知道这样做反而加重了自己的毛囊炎症状,所以说平时应该少使用含有雌激素类的产品。2、饮食习惯差:经常吃辛辣油腻的东西或者甜食也可能造成体内毒素堆积,从而诱发痤疮。3、压力太大:如果你总是处于紧张焦虑的情绪之中,同时还没有及时调整好心态,那么很容易出现内分泌失调的情况,进而影响到肌肤健康。4、睡眠质量差:熬夜对我们的身体伤害非常严重,尤其是对于年轻人群更甚,他们需要保证充足的睡眠才行,否则很容易让肌肤变得暗沉无光泽。 | | 脸上长青春痘怎么办,能吃啥药,需要注意啥 | 你好,根据您的描述考虑是痤疮。建议外用维胺酯乳膏或者阿达帕林凝胶进行治疗看看,平时禁忌辛辣和刺激性食物,如海鲜、狗肉、羊肉等“发”动品,以及葱蒜韭姜等刺激性调料。多喝水,少吃油腻高热量食物。 | | 由于输精管堵塞会不会导致男性不育?,医生您好,我同事这几天不开心,我问她怎么了,她说她老公输精管堵塞,所以一直没孩子,不是不想要,请问输精管堵塞会不会导致男性不育? | 你好!根据你的叙述及症状推测:如果有输精管阻塞或者狭窄等情况都可能会引来无法排出来精液而影响怀上。建议到正规专业的快孕医院实施进行咨询和治疗为宜。对于输精管患者来说,及时救治是可以减低病发,如果不及时救治会影响到受孕情况。因此患者要及时药物救治,并且日常生活中要多看重自身护理 | | 心肌梗塞能治疗吗? | 心脏病是一种危害性极大的疾病,我们要对它有足够多的了解。在生活中很多人都会患上这个疾病,而且还不知道怎么去预防和护理,所以就导致自己的身体越来越差,那么下面小编给你介绍几点关于心脏病的常识吧!1、冠状动脉粥样硬化性心脏病:又称为冠心病或缺血型心脏病(IHD),是世界各地最重要的死亡原因之一。2、风湿热:主要侵犯心脏瓣膜,可引起二尖瓣狭窄及其他类型的心脏瓣膜病变;3、先天性心脏病:包括房间隔缺损、室间隔缺损等;4、高脂蛋白血症:由于胆固醇与低密度脂蛋白升高,使得动脉壁增厚,管腔缩小,易形成斑块并脱落造成急性栓塞;5、肥胖:过量摄入食物,特别是含糖饮料,加速脂肪堆积,促进动脉粥样硬化发展;6、吸烟:尼古丁刺激交感神经兴奋,使外周阻力增强,收缩压升高,舒张期减短,从而降低左右心室射血分数,诱发心律失常;7、酗酒:长期嗜酒者,肝功受到影响,代谢紊乱,容易出现脂质代谢异常。 | | 怎么让自己精力充沛,列5点建议 | 1、保证睡眠质量:每天晚上7-8小时的高质量睡眠是提升身体和大脑活跃度最有效的方法。2、合理饮食:均衡营养摄入对于维持人体正常运转至关重要,多吃蔬菜水果,少油腻辛辣刺激性食物。3、适当锻炼:坚持一定强度的锻炼可以促进血液循环,增加肌肉耐力,改善心肺功能等。4、学习新知识:不断接触新事物,开拓视野,思考问题,都会使得我们更具创造力与灵感。5、放松心情:通过冥想或者瑜伽来缓解压力,也可以听音乐或看电影来调节情绪。 | | 写个春天的诗 | 春风吹拂,花儿绽放。 阳光明媚,鸟语鸣叫。 树木抽芽,草地变绿。 万物复苏,生机勃发。 | | 南极洲为啥没有北极熊? |南极是世界上最大的冰盖,覆盖着98%以上的地球表面积。它位于南纬60度至74度之间,环绕在海洋中心周围。由于其独特的气候条件和生态系统,南极被称为“真正的荒野”。南极洲拥有丰富多样的动植物资源,但这里并不存在北极熊。 那么,为什么南极洲没有北极熊呢?首先,我们需要了解一下两者栖息地的差异。北极熊主要分布在北半球寒冷的高纬度地区,如加拿大、格陵兰岛等地。而南极洲则处于南半球,属于温带或寒带气候类型。虽然南极洲也有很低的平均气温(-25℃左右),但与北极相比还是太热了。因此,即使北极熊能够适应更严酷的气候条件,它们也无法在南极找到合适的栖息地。另外,南极洲缺乏陆地哺乳动物食物来源,包括鱼类、鲸鱼和企鹅等。尽管南极洲的水域中也有各种鱼类,但数量远少于北极圈内。同时,南极洲的土著居民——企鹅群体繁殖季节期间会消耗掉大部分可用的食物资源,导致当地的鱼类数量减少甚至枯竭。| - 50万条中文ChatGPT指令Belle数据集:BelleGroup/train0.5MCN - 100万条中文ChatGPT指令Belle数据集:BelleGroup/train1MCN - 5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset - 2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh - 69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanacobellemergev1.0 - 240万条中文医疗数据集(包括预训练数据和指令微调数据集):shibing624/medical 如果需要训练ChatGLM/LLAMA/BLOOM模型,请参考https://github.com/shibing624/textgen

NaNK
llama
50
26

vicuna-baichuan-13b-chat

NaNK
license:apache-2.0
43
19

gpt2-dialogbot-base-chinese

license:apache-2.0
41
36

llama-3-8b-instruct-262k-chinese

NaNK
llama
36
11

asian-role

license:cc-by-sa-4.0
35
28

code-autocomplete-gpt2-base

license:apache-2.0
25
6

chinese-text-correction-7b-lora

NaNK
license:apache-2.0
20
2

chinese-text-correction-1.5b-lora

NaNK
license:apache-2.0
20
1

t5-chinese-couplet

license:apache-2.0
11
6

bert4ner-base-uncased

license:apache-2.0
7
2

chatglm-6b-belle-zh-lora

The overall performance of chatglm-6b-belle-zh-lora on QA test: |inputtext|predict| |:-- |:--- | |介绍下北京|北京是中国的首都,是中国的政治、文化和经济中心。它位于中国的北部,拥有悠久的历史和文化遗产,如故宫、长城和天坛等。北京也是中国最著名的城市之一,有着丰富的美食、文化和娱乐活动。北京还有许多旅游景点,如颐和园、圆明园和天坛等。北京是一个充满活力和机会的城市,吸引了来自全国和世界各地的人们前来探索。| 在中文开放测试集中的表现优异,继承了两方面的优势:1)微调的底座是ChatGLM-6B模型,中文的表现优于LLAMA,2)微调使用的是高质量100万条中文ChatGPT指令Belle数据集,微调后的模型对话效果优于原始ChatGLM-6B。 Usage (HuggingFace Transformers) Without textgen, you can use the model like this: First, you pass your input through the transformer model, then you get the generated sentence. 1. 50万条中文ChatGPT指令Belle数据集:BelleGroup/train0.5MCN 2. 100万条中文ChatGPT指令Belle数据集:BelleGroup/train1MCN 3. 5万条英文ChatGPT指令Alpaca数据集:50k English Stanford Alpaca dataset 4. 2万条中文ChatGPT指令Alpaca数据集:shibing624/alpaca-zh 5. 69万条中文指令Guanaco数据集(Belle50万条+Guanaco19万条):Chinese-Vicuna/guanacobellemergev1.0 如果需要训练ChatGLM模型,请参考https://github.com/shibing624/textgen

NaNK
license:apache-2.0
5
31

vicuna-baichuan-13b-chat-lora

NaNK
license:apache-2.0
5
6

code-autocomplete-distilgpt2-python

license:apache-2.0
3
13

bertspan4ner-base-chinese

license:apache-2.0
3
3

Ziya Llama 13b Medical Lora

NaNK
license:apache-2.0
0
19

chatglm-6b-csc-zh-lora

Chinese Spelling Correction LoRA Model ChatGLM中文纠错LoRA模型 The overall performance of chatglm-6b-csc-zh-lora on CSC test: |prefix|inputtext|targettext|pred| |:-- |:--- |:--- |:-- | |对下面中文拼写纠错:|少先队员因该为老人让坐。|少先队员应该为老人让座。|少先队员应该为老人让座。\n错误字:因,坐| 在CSC测试集上生成结果纠错准确率高,由于是基于大模型,结果常常能带给人惊喜,不仅能纠错,还带有句子润色和改写功能。 本项目开源在textgen项目:textgen,可支持ChatGLM原生模型和LoRA微调后的模型,通过如下命令调用: Usage (HuggingFace Transformers) Without textgen, you can use the model like this: First, you pass your input through the transformer model, then you get the generated sentence. - numepochs: 2 - batchsize: 4 - steps: 125600 - trainloss: 0.1055 - base model: THUDM/chatglm-6b - train data: shibing624/CSC 如果需要训练ChatGLM模型,请参考https://github.com/shibing624/textgen

NaNK
license:apache-2.0
0
17

parrots-gpt-sovits-speaker

license:cc-by-nc-4.0
0
13

text2vec-word2vec-tencent-chinese

license:apache-2.0
0
9

parrots-gpt-sovits-speaker-maimai

license:cc-by-nc-4.0
0
8

chinese-alpaca-plus-13b-pth

NaNK
LLaMA
0
7

llama-13b-belle-zh-lora

NaNK
llama
0
4

chinese-kenlm-klm

0
3

llama-3-8b-instruct-262k-chinese-lora

NaNK
llama3
0
3

ai-avatar-wav2lip

license:apache-2.0
0
2

songnet-base-chinese-songci

license:apache-2.0
0
2

songnet-base-chinese-couplet

license:apache-2.0
0
2

songnet-base-chinese

license:apache-2.0
0
1