ValueFX9507

8 models • 3 total models in database

Sort by:

Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Tifa-Deepsex-14b-CoT-GGUF-Q4

- HF Model: ValueFX9507/Tifa-Deepsex-14b-CoT - GGUF: F16 | Q8（Q4损失较大，建议Q8） - Demo APK: 点击下载 - 简单的前端：Github链接本模型基于Deepseek-R1-14B进行深度优化，借助Tifa220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链（CoT）能力。特别适合需要长程上下文关联的创作场景。鸣谢 - 上海左北科技提供算法与算力企业网址 - Deepseek团队共享GRPO算法 - Qwen团队提供优秀开源底座 - 母校上海复旦大学 - PRIME团队提供优化思路 - 验证模型，测试RL奖励算法对于角色扮演数据的影响，该版本为初版，输出灵活但是不受控制，仅做研究使用。 - 采用标准数据训练，使用成熟RL策略，附加防重复强化学习，适合正常使用，输出文本质量正常，少数情况下思维发散。 -100K由TifaMax生成的SFT数据，10K由DeepseekR1生成的SFT数据，2K高质量人工数据 - 大量使用RL策略，主要采用671B满血R1蒸馏的数据，输出发散性高，继承R1优点，也继承了R1的危害性。文学性能佳。 -40K由TifaMax生成的SFT数据，60K由DeepseekR1生成的SFT数据，2K高质量人工数据 0208更新消息：感谢大家的关注与反馈，鉴于反馈中提到的问题，我们已开发并验证完成PRIME与PPO结合的RL算法，并通过加权方式解决两种算法训练中奖励信号不稳定的问题，通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练，另外为了让更多人使用到模型，我们这次使用更小更快的Deepseek-7b，并参考OpenAI的长思考策略，计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥ 新模型信息整理： - 创新PRIME联合PPO算法 - 解决目前已知问题 - 参考OpenAI模式奖励长思考输出 - 减少671B数据，防止输出发散 - 特别鸣谢https://github.com/PRIME-RL/PRIME 目标针对原版Deepseek-R1-14B在长文本生成连贯性不足和角色扮演能力薄弱的核心缺陷（主要由于训练数据中小说类语料占比过低），本模型通过多阶段优化提升其角色扮演能力。注意 ⚠ 需要严格遵循官方示例模板：返回的上下文需要去除思考标签与内容。否则将无法正确回复！目前前端支持率非常低，建议手动修改前端代码。代码参考如下：官方模板参考 json' + '\\n' + tool['function']['arguments'] + '\\n' + 'json' + '\\n' + tool['function']['arguments'] + '\\n' + ' 官方说明实现 🔥 经过训练后： 1. 显著提高上下文关联：减少答非所问情况。 2. 消除中英混杂：原始模型蒸馏数据大多数英文为主，经过微调后基本消除中英混杂现象。 3. 特定词汇增加：进行“具有深度”的角色扮演对话时，显著增加了相关词汇量，解决原始权重预训练数据不足问题。 4. 更少拒绝：减少了拒绝现象，但因为是企业训练，安全性还是稍作保留。 5. 更像满血：使用671B全量模型数据康复训练，文笔提升不死板。模型亮点 🔥 四阶段进化架构： 1. 增量预训练：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性 2. Tifa-SFT：融合全球Top4角色扮演模型Tifa的10万条高质量数据 3. CoT恢复训练：采用Deepseek-32B/671B数据重建推理能力 4. RL强化：保留发散性思维标签的同时优化生成质量 💡 工程创新： - 16k超长上下文训练 - 随机截断训练增强鲁棒性 - 8×H20 GPU全量微调 💡 启示与后续： - 我们在测试中发现，满血R1在角色扮演中输出内容比较发散，随机，导致此模型有相同倾向，对于角色扮演的影响还在研究中 - 输入内容相近的话语会导致向量重叠，然后重复输出，如“继续”，“还有”等无明显指向性话语 - 思维内容与正文关联性学习了满血R1的特点，发散比较严重，可能会有割裂感 - 针对以上问题，我们正在编写新的RL算法，初步计划剔除部分满血R1的内容，同时通过强化学习解决重复 - 总结：请期待V2版本，很快会与大家见面！模型详情 | 属性 | 规格 | |-------|------| | 基础架构 | Deepseek-R1-14B | | 最大上下文 | 128k | | 训练数据 | 0.4T小说 + 10万条SFT + Deepseek混合数据 | | 训练设备 | 8×H20 GPU集群 | | 量化支持 | GGUF（全系列量化计划中） | 使用场景 ✅ 推荐场景： - 角色扮演对话 - 需要发散性思维的创意写作 - 复杂逻辑的思维链（CoT）推理 - 基于上下文的深度角色交互注意事项 ⚠️ 本模型使用数据包含小说版权内容及Tifa模型衍生数据，请遵守： 1. 遵守apache-2.0 2. 角色扮演数据需遵循Tifa使用协议 3. 生成内容需符合当地法律法规致谢 - Deepseek系列模型提供的强大基座 - Tifa角色扮演模型的创新架构 - HuggingFace社区的量化工具支持

Tifa-DeepsexV3-14b-GGUF-Q6

本模型基于Qwen3 14b-base进行深度优化，模型还在迭代中，目前最新为0701版本。可使用官网测试连接测试（一定要选择开源测试）本版本特点长文优化、单次输出可超过5000字。超长关联，细微场景伏笔可在几千字后收回。控制器支持，可使用控制器精确控制输出字数、风格、段落格式。负面词汇避免，可设置不想看到的词，避免输出。致谢 - Qwen系列模型提供的强大基座 - Deepseek团队提供的研究思路 - LeftNorth团队提供的技术支持 - Tifa角色扮演模型的创新架构 - HuggingFace社区的量化工具支持

NaNK

license:apache-2.0

2,308

Tifa-DeepsexV2-7b-MGRPO-GGUF-Q8

- 原始模型：Qwen2.5-7B - GGUF: F16 | Q8 | Q4 （Q4损失较大，推荐Q8以上） - Demo APK: 点击下载 - 简单的前端：Github链接 - 必看教程：BiliBili视频教程本模型基于Qwen2.5 7b进行深度优化，具有100万字上下文能力，借助Tifa220B生成的数据集与创新型的MGRPO算法，提供卓越的角色扮演体验。本模型未特殊优化违规内容生成，仅在减少拒绝上努力。非常抱歉列位，我延期的原因是严重低估了MGRPO的训练效率。实测发现，经过我“优化”的框架虽然能提升性能，但是训练效率下降3倍之多，显存容量占用也是三倍之多。所以延期至今，目前训练已完成7%，但是效果完全超越14b、甚至32b模型。已足够证明策略优越，遂上传模型。目前正在从服务器中回传。很快将会上载。训练还在继续，将和之前一样分为验证版、Chat版和Crazy版本。目前为验证版。 In the term "deepsex," the Chinese character "sex" (性) refers to: - The "human nature" in philosophical context (人性的性) - The "character" in personal disposition (性格的性) - The "individuality" in unique traits (个性的性) - The "innate essence" in the Confucian concept of "human nature is inherently good" (性本善的性) Please note this "sex" should not be interpreted as sexual relations, but rather as the multidimensional Chinese philosophical concept of "Xing" (性). - 为了解决部分平台不兼容模型的问题，去掉思维链训练了一个普通版本，为NoCot版，同样采用MGRPO策略训练，但可能效果不及Cot版，也可能上下文连贯性好于Cot版。 - Cot版本训练进度为23%，已训练完成20万轮对话，剩余约70万轮，loss下降至1.1，即将接近7b模型极限。 - 0218更新-(进度15%，动态思维链) - Tifa-DeepsexV2-7b-MGRPO-0218，大幅减少发散、提高推理能力、惩罚多个过拟合词，自动选择是否进行深度思考（测试）鸣谢 - 上海左北科技提供算法与算力和语料企业网址 - Deepseek团队共享GRPO算法 - Qwen团队提供优秀开源底座 - 母校上海复旦大学 - PRIME团队提供优化思路实现 🔥 经过训练后： 1. 具备思维链：逻辑能力，关联能力提升 2. 自发思考：思维链在训练中自发生成，提供最优解决思路 3. 特定词汇增加：进行“具有深度”的角色扮演对话时，显著增加了相关词汇量，解决原始权重预训练数据不足问题 4. 更少拒绝：减少了拒绝现象，但因为是企业训练，安全性还是稍作保留 5. 文学性能提升：强化学习中更多的提升了文学性，使其输出更具有小说感觉模型亮点 🔥 四阶段进化架构： 1. 增量预训练：注入0.1T Token 小说，增强文本连贯性，理解更多场景 2. Tifa-COT-SFT冷启动：使模型学会思考策略，提升逻辑性能与上下文关联 3. MGROP：改进GRPO算法，解决GRPO无法奖励角色扮演数据问题，引入多次奖励，提升模型效果 4. 防重复DPO：使用DPO防止模型复读、增强政治安全性。 💡 工程创新： - 改进GRPO算法，使其可以用来训练文学类内容 - 改进反馈策略，前置向量确认法提高模型训练性能 - 改进训练时Transformers传播路径，激发模型深层次潜能 MGRPO与层传播： - 算法改变：原始GRPO仅通过ORM策略进行偏好学习，但无法评判文学内容生成质量，本次训练使用上海交通大学博士魏XX、洪XX的启发，使用逻辑学算法，解决文学ORM策略设计难点，并且二次返回修改提示词进行错误总结。每次调整均经历2次完整传播过程，为GRPO+GRPO，所以暂时命名为MGRPO。 - 构架改变：尝试改变Transformers传播方式，在层内循环处理进行训练，受到Universal Transformers与最新潜空间启发，在训练中让部分层循环激活，为了避免梯度爆炸使用梯度裁切技术，测试发现模型性能得到提升，更多工作还在测试中。奖励函数设计： - 为了让模型输出效果更好，我联合左北科技语言学小组，使用上交大博士逻辑学思路设计多个主要函数 - 逻辑奖励函数：把文本向量化之后，通过逻辑学算法，提取角色向量空间中的分布，与对话中倾向是否一致。 - 文笔奖励函数：采用文笔库，选取10000条著作中截取的优秀文字片段作为比较，计算在空间中的离散分布，看能否匹配。 - 格式奖励函数：最简单的函数，包括重复性惩罚、输出内容换行惩罚、过拟合词惩罚、输出格式与system差距惩罚。 - 连贯性奖励函数：使用左北科技训练的向量空间计算器（我也不知道什么玩意）判断文本中断层的残差来返回函数。 - （0216新增）人体结构奖励函数：遇到人体结构错误，如三只手、重要器官漂移。则惩罚。模型经过SFT冷启动后初步掌握了简单的思维链输出能力。经过RL训练思维链中扩展了非常多的思考过程。说明RL强化学习中，模型已经学会使用思维链进行思考。模型详情 | 属性 | 规格 | |-------|------| | 基础架构 | Qwen2.5-7B | | 最大上下文 | 1024k | | 训练数据 | 0.1T小说 + 10万条SFT + MGRPO强化学习 | | 训练设备 | 2x8×H100 GPU集群 | | 训练时长 | 预计达到3000 H100小时 | | 量化支持 | GGUF（全系列量化计划中） | 使用场景 ✅ 推荐场景： - 角色扮演对话 - 需要发散性思维的创意写作 - 复杂逻辑的思维链（CoT）推理 - 基于上下文的深度角色交互注意 ⚠ 需要严格遵循官方示例模板：返回的上下文需要去除思考标签与内容。否则将无法正确回复！目前前端支持率非常低，建议手动修改前端代码。代码参考如下：注意事项 ⚠️ 本模型使用数据包含小说版权内容及Tifa模型衍生数据，请遵守： 1. 遵守apache-2.0 2. 角色扮演数据需遵循Tifa使用协议 3. 生成内容需符合当地法律法规致谢 - Qwen系列模型提供的强大基座 - Deepseek团队提供的研究思路 - LeftNorth团队提供的技术支持 - Tifa角色扮演模型的创新架构 - HuggingFace社区的量化工具支持

Tifa-DeepsexV2-7b-MGRPO-GGUF-F16

NaNK

license:apache-2.0

1,070

Tifa-Deepsex-14b-CoT-Q8

- HF Model: ValueFX9507/Tifa-Deepsex-14b-CoT - GGUF: F16 | Q4（更多量化版本持续更新中） - Demo APK: 点击下载 - 简单的前端：Github链接本模型基于Deepseek-R1-14B进行深度优化，借助Tifa220B生成的数据集通过三重训练策略显著增强角色扮演、小说文本生成与思维链（CoT）能力。特别适合需要长程上下文关联的创作场景。鸣谢 - 上海左北科技提供算法与算力企业网址 - Deepseek团队共享GRPO算法 - Qwen团队提供优秀开源底座 - 母校上海复旦大学 - PRIME团队提供优化思路 - 验证模型，测试RL奖励算法对于角色扮演数据的影响，该版本为初版，输出灵活但是不受控制，仅做研究使用。 - 采用标准数据训练，使用成熟RL策略，附加防重复强化学习，适合正常使用，输出文本质量正常，少数情况下思维发散。 -100K由TifaMax生成的SFT数据，10K由DeepseekR1生成的SFT数据，2K高质量人工数据 - 大量使用RL策略，主要采用671B满血R1蒸馏的数据，输出发散性高，继承R1优点，也继承了R1的危害性。文学性能佳。 -40K由TifaMax生成的SFT数据，60K由DeepseekR1生成的SFT数据，2K高质量人工数据 0208更新消息：感谢大家的关注与反馈，鉴于反馈中提到的问题，我们已开发并验证完成PRIME与PPO结合的RL算法，并通过加权方式解决两种算法训练中奖励信号不稳定的问题，通过此项技术我们有望将更小的模型提升到更高的性能。我们将会针对之前收集到的问题进行修正训练，另外为了让更多人使用到模型，我们这次使用更小更快的Deepseek-7b，并参考OpenAI的长思考策略，计划推出Tifa-DeepsexV2-COT-High供大家使用。新的模型计划于阳历情人节之前送给大家作为情人节礼物。♥ 新模型信息整理： - 创新PRIME联合PPO算法 - 解决目前已知问题 - 参考OpenAI模式奖励长思考输出 - 减少671B数据，防止输出发散 - 特别鸣谢https://github.com/PRIME-RL/PRIME 目标针对原版Deepseek-R1-14B在长文本生成连贯性不足和角色扮演能力薄弱的核心缺陷（主要由于训练数据中小说类语料占比过低），本模型通过多阶段优化提升其角色扮演能力。注意 ⚠ 需要严格遵循官方示例模板：返回的上下文需要去除思考标签与内容。否则将无法正确回复！目前前端支持率非常低，建议手动修改前端代码。代码参考如下：官方模板参考 json' + '\\n' + tool['function']['arguments'] + '\\n' + 'json' + '\\n' + tool['function']['arguments'] + '\\n' + ' 官方说明实现 🔥 经过训练后： 1. 显著提高上下文关联：减少答非所问情况。 2. 消除中英混杂：原始模型蒸馏数据大多数英文为主，经过微调后基本消除中英混杂现象。 3. 特定词汇增加：进行“具有深度”的角色扮演对话时，显著增加了相关词汇量，解决原始权重预训练数据不足问题。 4. 更少拒绝：减少了拒绝现象，但因为是企业训练，安全性还是稍作保留。 5. 更像满血：使用671B全量模型数据康复训练，文笔提升不死板。模型亮点 🔥 四阶段进化架构： 1. 增量预训练：注入0.4T Token 小说，使用16k上下文训练，增强文本连贯性 2. Tifa-SFT：融合全球Top4角色扮演模型Tifa的10万条高质量数据 3. CoT恢复训练：采用Deepseek-32B/671B数据重建推理能力 4. RL强化：保留发散性思维标签的同时优化生成质量 💡 工程创新： - 16k超长上下文训练 - 随机截断训练增强鲁棒性 - 8×H20 GPU全量微调 💡 启示与后续： - 我们在测试中发现，满血R1在角色扮演中输出内容比较发散，随机，导致此模型有相同倾向，对于角色扮演的影响还在研究中 - 输入内容相近的话语会导致向量重叠，然后重复输出，如“继续”，“还有”等无明显指向性话语 - 思维内容与正文关联性学习了满血R1的特点，发散比较严重，可能会有割裂感 - 针对以上问题，我们正在编写新的RL算法，初步计划剔除部分满血R1的内容，同时通过强化学习解决重复 - 总结：请期待V2版本，很快会与大家见面！模型详情 | 属性 | 规格 | |-------|------| | 基础架构 | Deepseek-R1-14B | | 最大上下文 | 128k | | 训练数据 | 0.4T小说 + 10万条SFT + Deepseek混合数据 | | 训练设备 | 8×H20 GPU集群 | | 量化支持 | GGUF（全系列量化计划中） | 使用场景 ✅ 推荐场景： - 角色扮演对话 - 需要发散性思维的创意写作 - 复杂逻辑的思维链（CoT）推理 - 基于上下文的深度角色交互注意事项 ⚠️ 本模型使用数据包含小说版权内容及Tifa模型衍生数据，请遵守： 1. 遵守apache-2.0 2. 角色扮演数据需遵循Tifa使用协议 3. 生成内容需符合当地法律法规致谢 - Deepseek系列模型提供的强大基座 - Tifa角色扮演模型的创新架构 - HuggingFace社区的量化工具支持

Tifa-Deepsex-14b-CoT

beta-AllForPraticles-by-JiaYu-Liu-studio

—