今天正式发布 DeepSeek-V3.1。本次升级包含以下主要变化:混合推理架构:一个模型同时支持思考模式与非思… DeepSeek简介: DeepSeek,特别是V3版本,因其十分有效的控制训练模型成本和开源免费的模式震惊全球,登顶应用商店的下载排行榜,甚至重创国外的科技股,而且截止到写稿日期(2025年2月9日),已经有很多科技巨头接入DeepSeek,比如英伟达、微软等等。 数据都不太一样,当然清华大学的是2024年11月的榜deepseek还是2.5的版本,但整体的数据还是相差不少。 不过也能说明一个问题就是现阶段全球比较顶尖的AI模型中在编程能力方面比较优秀的就是DeepSeek、Claude、Gemini及Qwen这些了。 似乎V4不太会先出,搞不好是R2先出,如果是那样的话就期待DeepSeek在RL上又摸索出了什么东西,或者能做出什么改进。 然后关于期待的话: 更扎实的预训练和更强的基础模型能力,看看多模态能不能带来一些新东西(比如不同模态在embedding上的创新?); 推想混合,或者可以根据提示词实现模式. 这次,DeepSeek-V 3.1 使用了 UE8M0 FP8 Scale 的参数精度,而UE8M0 FP8 是专门针对即将发布的下一代国产芯片设计。 好家伙,所以,在外面模型一顿厮杀的时候,DeepSeek 迟迟不发布的原因,可能是做国产芯片的适配? DeepSeek不用说了,用比ChatGTP多得多的成本实现了比肩的模型表现。不然也不能动用美国搞国家安全这一套。在被OpenAI拒绝在外的AMD率先表态接入DeepSeek后,现在英伟达、亚马逊、微软也都接入了。影响力没得说。 豆包和文心一言则还是基于ChatGTP,但豆包的日用体验非常丰富,比如识图,比如充当树.
豆包与 DeepSeek 工具的价值在于驾驭者 当AI助手走进生活 在人工智能技术快速发展的今天,“豆包”与“DeepSeek”作为两大智能助手,正在重塑我们的工作与生活方式。本文将详细探讨从功能特性、应用场景到实战技巧,带您看懂这对“AI双子星”的差异与魅力。 核心功能对比: 豆包;生活场景的. 估计 DeepSeek 发布 V3 和 R1 时也没预料到会有这么大的流量进来,换其他家 AI 的话光是国内激增的用户都未必都撑得住。 我原本确实是以为,DeepSeek 这两天的服务崩溃是因为爆火之后涌入的真实用户过多,短时间内流量过大,没提前准备好扩容所以支撑不住。 尽管DeepSeek-V3展示了per-tile和per-group量化对于模型收敛的重要性,论文中并没有给出对应的FP8矩阵乘法的算子效率。 另外,论文中缺乏per-token加per-channel量化的讨论,不清楚这种实现上更加友好的量化方法对于训练稳定性的影响会有多大。
OPEN