Transformer Encoder/Decoder

抖音大模型二面：讲讲 Transformer 架构的基本原理？Encoder 和 Decoder 是 ...

来讲讲 Transformer 架构的基本原理？Encoder 和 Decoder 是什么？Transformer 这道题想听的不是「Attention is all you need」这种口号，而是 RNN 卡在哪两点、Attention 怎么把这两点都破了、三种架构变体打了一圈为什么是 Decoder-only 赢到现在。 👔面试官：来讲讲 Transformer 架构 ...

Tencent News

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭 ...

HRM-Text发布前后，图灵奖得主Yoshua Bengio作为共同作者参与发布了《Generative Recursive ...

51CTO

大白话搞懂 Transformer 基本结构和工作原理

从横扫翻译界的初代 Transformer，到后来单飞出来的 BERT（只用编码器）、GPT（只用解码器），这套架构几乎定义了大模型时代。说白了，你现在能跟 ChatGPT 聊得飞起，全靠这个平行处理、一眼千里、还能堆叠无数层的惊人设计。一句话概括：Transformer 之所以能 ...

腾讯网

从科学计算到量子计算：众智FlagOS·科学智能基座

计算范式本身也在走向多元—科学计算、量子-经典融合正在成为AI的新战场。多元本身不是问题，它是一种不断的演进，关键在于多元之上有没有统一的软件栈来兜底。这正是FlagOS下一步要做的事：不局限在今天的AI智算，也要为量子计算+AI打好基础。

4 天

半月内两次问鼎全球：中国创业公司，在AI图像生成赛道掀了桌子

大模型的竞争进入 2026 年，行业正在将 AI 视为一场关于参数规模与算力堆砌的无限游戏时，一家成立仅三年多的中国创业公司——智象未来（HiDream.ai），凭借底层架构的创新，在巨头环伺的图像模型领域撕开了一道裂缝。

2 天

HuggingFace CEO力荐：这个1500美元训出的HRM模型，凭什么火了？

好家伙，这次不是模型圈自嗨。一个训练成本约1500美元、参数量约1B、从零开始预训练的小模型，把 HRM推到了下一代推理架构讨论的中心。 HuggingFace联合创始人兼CEO Clem Delangue亲自转发推荐。图灵奖得主Yoshua ...

5 天

中国第一、全球第二！HiDream-O1-Image-1.5 登顶文生图榜单，超越谷歌 ...

近日，智象未来（HiDream.ai）全新推出的商用版图像生成模型 HiDream-O1-Image-1.5 再次实现 SOTA，在全球知名独立 AI 模型评测与分析平台 Artificial Analysis的文生图榜单（Text to ...

雷锋网

会写字、懂排版、能分镜：HiDream-O1-Image-1.5 全能图像生成能力解析

导语：原生全模态架构首度通过生产验证. 近日，智象未来（HiDream.ai）全新推出的商用版图像生成模型 HiDream-O1-Image-1.5 再次实现 SOTA，在全球知名独立 AI 模型评测与分析平台 Artificial Analysis的文生图榜单（Text to Image Leaderboard）上，一举登上中国图像生成模型第 ...

16 天on MSN

小米MiMo-V2.5系列API降价背后：全链路优化技术细节首次大公开

小米近日宣布，其MiMo-V2.5系列API完成永久性价格调整，最高降幅达99%，且不限制输入长度。这一举措的背后，是该团队在推理系统全链路优化方面的重大突破，通过Hybrid SWA+MoE+多模态复合架构的创新应用，实现了推理成本的大幅下降。

36氪

谷歌AI不认识Google

AI 很有用，但也有黑历史，还不少，比如就是算不准 Strawberry 中有多少个 r、知道马嘉祺却说不出他的名字以及还在持续困扰用户的 AI 幻觉问题。今天，又有新的问题出现了，这一次是谷歌搜索。有用户发现，近日升级了 AI 能力的谷歌搜索在面对「google 里面有 ...

16 天

最高降价 99%，小米 MiMo 首次公开模型推理系统全链路优化技术细节

IT之家5 月 30 日消息，5 月 27 日，小米 MiMo-V2.5 系列 API 完成永久降价，最高降幅达 99%，不区分输入长度。今日，小米正式公开 MiMo-V2.5 系列模型的推理系统全链路优化方案。据介绍，该团队围绕 Hybrid SWA + MoE + 多模态的复合架构，系统性重构了从 KVCache 管理、分级缓存、前缀缓存到调度策略与 Prefill / Decode 链路的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果