Transformer Encoder/Decoder

multi-channel-deep-networks-for-block-based-image-compressive-sensing-2019-200129.md

泛读。这一篇文章研究的是 BCS 的重建。作者的想法是不同的 patch 用不同的采样率，采样率直接用 salient value 来分配。但是这样会有很多不同的采样率，实际上作者用的是固定的一些采样率，只是根据 salient value 来确定使用哪一个相近的采样率。每一个采样率 ...

搜狐

大模型架构演进：从Encoder到Decoder，解码器为何成为AI生成主流？

Transformer架构自诞生以来，便以其强大的灵活性和模块化设计，深刻地影响了人工智能领域的发展。从最初的BERT到如今的GPT-4，不同的结构变体在各自擅长的领域大放异彩。本文将深入探讨Transformer的四大主流结构，并重点分析Decoder-only结构在大语言模型中的崛起 ...

51CTO

ICML'25 | 兼容不同数据源周期性差异的时间序列基础模型

今天给大家介绍一篇ICML 2025的时间序列预测工作，提出了一个轻量级、兼容不同类型数据的周期性差异的时间序列基础模型，在Zero-shot learning、Full-shot learning等场景中都取得了显著效果提升。时间序列基础模型希望构建类似LLM的时序领域通用模型，在大量多样性 ...

51CTO

深度解析：如何计算 Transformer 模型的参数量

目前，Transformer 模型展现出了强大的性能。而了解 Transformer 模型的参数量对于评估模型的规模、复杂度以及计算资源需求等具有重要意义。下面将详细阐述如何计算 Transformer 模型的参数量。一、Transformer 模型的基本结构回顾 Transformer 模型主要由编码器（Encoder ...

虎嗅网

图解Transformer：它能用来干嘛？

本文来自微信公众号：Afunby的 AI Lab（ID：AI_Lab_of_Afunby），原标题《图解Transformer：功能概览》，作者：Ketan Doshi，翻译&整理：Afunby，题图来自：视觉中国一、引言随着大型语言模型如 ChatGPT 的横空出世，我们进入了自然语言处理（NLP）的一个新纪元。在这个 ...

搜狐

矩阵视角下的Transformer详解（附代码）

Transformer 模型是 Google 团队在 2017 年 6 月由 Ashish Vaswani 等人在论文《Attention Is All You Need》所提出，当前它已经成为 NLP 领域中的首选模型。Transformer 抛弃了 RNN 的顺序结构，采用了 Self-Attention 机制，使得模型可以并行化训练，而且能够充分利用训练资料的全局 ...

Microsoft

代码智能新基准数据集CodeXGLUE来袭，多角度衡量模型优劣

编者按：代码智能（code intelligence）目的是让计算机具备理解和生成代码的能力，并利用编程语言知识和上下文进行推理，支持代码检索、补全、翻译、纠错、问答等场景。以深度学习为代表的人工智能算法，近年来在理解自然语言上取得了飞跃式的突破，代码 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果