DeepSeek-R1-Distill-Qwen-7B是一款基于蒸馏技术的高性能语言模型,通过将大模型知识迁移至7B参数规模,在数学、编程及自然语言处理等任务中表现优异。其资源占用低,适配8-12GB内存终端,支持本地化部署,适用于对话系统、文本生成等中等规模场景,并在AIME 2024 ...
DeepSeek-R1-Distill-Llama-8B 是基于 Llama-3.1-8B 架构开发的蒸馏模型,通过 DeepSeek-R1 生成的样本进行微调优化。该模型在数学推理(MATH-500 准确率 89.1%)、编程(CodeForces 评分 1205)等任务中表现优异,同时通过蒸馏技术降低计算资源消耗,适合资源受限场景。支持文本 ...
【超算互联网宣布上线DeepSeek-R1-Distill-Qwen-7B/14B API接口服务】《科创板日报》18日讯,国家超算互联网平台2月18日晚间宣布正式上线DeepSeek-R1-Distill-Qwen-7B/14B API接口服务,可免费获得额度高达100万Tokens。此前超算互联网平台已上线DeepSeek多款大模型以及DeepSeek满血版 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果