ADI 发布 SHARC 处理器白皮书

ADI 公司

2009-09-24 15:14 5721

-- SHARC 处理器的起源和演进

北京2009年9月24日电 /美通社亚洲/ -- 全球领先的高性能信号处理解决方案供应商 Analog Devices, Inc. 最新发布 SHARC 处理器白皮书 -- SHARC 处理器的起源和演进。具体内容如下：

1. 引言

说到要求超高性能的前沿应用，就不得不提起ADI公司的SHARC处理器。随着更高动态范围、更高性能和更低成本等市场压力的与日俱增，各种应用对浮点处理器的需求也在不断增加。本文将介绍第一款SHARC处理器背后的历史，并讨论其架构的创新，这使得这款处理器在18年的数字信号处理历史中一直处于领先的地位。

2．SHARC 处理器的历史 -- 第一步

“SHARC”是超级哈佛架构 (Super Harvard ARChitecture) 的缩写，是 ADI 公司为他们的浮点处理器起的名字。SHARC 处理器在标准哈佛架构基础上作了改进，不仅方便了PM (程序存储器)总线上的数据传送，并通过增加一个指令缓存优化了基于紧密循环的计算过程的吞吐性能。改进后的架构能够同时存取数据和系数，并同时从指令缓存执行所选的指令，从而高效地实现了处理器的三总线操作模式。

大家知道，SHARC 处理器较早起源于 ADSP-21020。这个浮点单指令单数据 (SISD) DSP 实际上是一个不带嵌入式存储器或外设的独立计算内核。PM 和 DM（数据存储器）存储空间是通过连接到 SRAM 芯片的外部总线进行访问的，通过 JTAG 接口对处理器进行编程和调试。

ADSP-21020 可以在 33MHz 时钟频率下工作，执行单周期指令。ADSP-21020 可以利用80位累加器完成32位或40位浮点和32位定点运算，是 ADI 公司在1991年推向市场的突破性产品。这种内核技术是 ADI 公司对浮点性能和创新做出承诺的起始点。

(Photo: http://www.prnasia.com/sa/2009/09/23/2009092395489.jpg )

ADSP-21020架构

(Photo: http://www.prnasia.com/sa/2009/09/23/20090923947890.jpg )

集成与创新：SHARC 的诞生

第一款真正的 SHARC 处理器是 ADSP-21060。ADI公司在ADSP-21020内核产品的基础上开发出了一个完全集成的处理器，其中包括了用于控制集成外设的 DMA 流量的片上SRAM和I/O处理器。

ADSP-21060 浮点处理器是1994年进入市场的，当时被认为是DSP性能和创新方面的顶尖水平。

SHARC 内核能够在一个周期内以高达 40MHz 的速度执行计算，并且增加了 I/O 处理器，能够在不增加任何内核开销的条件下，在外设和双端口 4Mb SRAM 存储器之间高速传输数据。

为了进一步提高最终用户的系统性能和可扩展性，ADI 设计团队着手创建允许多处理器系统能共享数据并且开销很小的机制。在外部端口逻辑中增加了一个簇总线控制器，可以无缝地进行处理器间的并行数据通信，每个簇最多可以有6个处理器。这种突破性技术允许系统架构师以高达 240MBps 的带宽从主处理器向指定从处理器的内存直接传送大量数据，或使用广播模式向簇中的所有从器件直接发送数据。

使用 ADI 的链路端口专利技术还能实现处理器间的高速通信。每个 ADSP-21060 集成了6个独立的链路端口用于点到点通信，因此可以实现额外的 240MBps 的 I/O 带宽。

(Photo: http://www.prnasia.com/sa/2009/09/23/20090923409579.jpg )

第一代 SHARC ADSP-21062 评估平台

由于具有这种真正平衡的架构和扩展功能，SHARC 处理器被广泛用于运算强度大的应用，如医疗成像、军事雷达和电子游戏机。

也许让人不敢相信，具有这种功能的处理器在15年前就推向市场了，但让许多人更加惊奇的是，这种处理器目前还在继续为用户所用！这是 SHARC 架构性能的良好扩展性以及 ADI 公司对质量和用户满意做出承诺的较好证明。

第二代 SHARC 处理器将处理性能提升到了新的层次，它将内核架构扩展为单指令多数据(SIMD)系统，并将内核时钟频率提高到 100MHz。ADSP-2116x 系列处理器保持了与 ADSP-2106x SISD 处理器的源代码的完全兼容性，而且经过少量代码修改就能让用户发挥新增加的并行运算单元(寄存器文件 + 乘法器 + ALU + 桶式移位器)的作用，与上一代 SHARC 相比可以将周期性能指标提高一倍。

为了在不降低周期性能的条件下方便到这个新增加的运算单元的数据传送，内部的 PM 和 DM 数据总线宽度都增加到了64位，同时在ADSP-21161上集成了48位宽 100MHz SDRAM 控制器来增加 I/O 数据传送带宽，从而能够实现高达 600MBps 带宽的数据传送能力。

就像上一代 SISD SHARC 一样，第二代 SHARC 保留了支持簇总线系统架构的多处理器无胶合连接，以及通过链路端口的点到点连接，使性能升级路线图更加简单清晰。

就像上一代 SISD SHARC 一样，第二代 SHARC 系列器件被医疗、工业和军事应用所广泛采用，而且由于额外集成了支持时分复用 (TDM) 和 I2S 格式的串行端口 (SPORT)，专业音响和高端消费/汽车音响设备很快地利用到了该处理器的浮点运算提供的大动态范围优势。

第三代 SHARC 处理器开始跳出多处理器应用空间，主动迎接新的挑战。由于在音频应用中具有明显的浮点处理优势，SHARC 技术开发的重点开始转向以较低系统成本努力增加片上处理功能。

以这个目标开发并推向市场的第一批处理器是 ADSP-2126x 系列。就像 ADSP-2116x 一样，ADSP-2126x 采用 SIMD 架构使运算性能较大化。除了将内核性能翻倍达到200MHz外，ADSP-21266处理器还是 SHARC 系列中首个内置片上掩膜 ROM 的产品。集成 4Mb ROM 降低了系统复杂性和成本，将曾经给人们留下“高成本”印象的浮点型 DSP 推向了消费类音频领域。

为了进一步降低硬件系统设计的复杂性，ADI 公司开发出了名为“数字应用接口”(DAI)的创新性外设。与以前的 SHARC 和同类竞争性产品将引脚功能固定下来不同，DAI 允许用户将任何外设功能分配到他们想要的任意一个外部引脚。对于音频系统来说，这意味着当系统输入输出要求发生改变时，音频时钟域可以随时通过软件分配到引脚并路由到串行端口。这种灵活性可以显著减少为了支持特殊系统规范所需的外部引脚数量，有助于硬件设计的简化，帮助用户进一步降低成本。

(Photo: http://www.prnasia.com/sa/2009/09/23/20090923107340.jpg )

ADSP-2136x 继承了 ADSP-2126x 节省成本的优点，并增加了先进的音频信号链集成方法。内核性能提高了60%以上，达到 333MHz，内部 SRAM 可增加到 3Mb。另外还集成了许多针对音频的外设，如高性能异步采样率转换器 (ASRC)、SPDIF 收发器和 DTCP 加密引擎，从而进一步优化了可编程性能和音频系统 BOM 成本，巩固了 ADI 在音频市场中的领导地位。在这一系列的高性能产品中还集成了工作频率高达 166MHz 的32位 SDRAM 接口，以增加 I/O 带宽，同时有利于数据密集应用使用批量生产的存储器。

基于这种突破性的音频系统集成和性价比领先优势，第三代 SHARC 系列不仅在专业音频领域，而且在消费音频应用(如家庭影院系统、AV 放大器)中得到了广泛应用，为新一代高清音频标准 (DTS Master Audio和Dolby Tru-HD) 推向市场发挥了重要作用。

第四代 SHARC 系列 -- ADSP-2146x

(Photo: http://www.prnasia.com/sa/2009/09/23/20090923965728.jpg)

第四代 SHARC：ADSP-2146x 架构框图

第三代SHARC 处理器在优化性价比方面取得了成功，推动浮点处理器进入了对成本敏感的消费类应用，而这类应用曾被人们认为是不可能使用昂贵的浮点处理器的。

ADI 公司现在面临着一个有意思的挑战：如何进一步改进具备优异性价比的浮点处理器？

在定义第四代处理器时，产品开发团队注重的是核心价值，正是它们使得 SHARC 一直处于浮点 DSP 技术的前沿：

-- 市场领先性能

-- 架构平衡

-- 性能可扩展性

-- 智能集成

下面将详细介绍上述每个关键的方面。

ADSP-2146x 性能增强

在 ADSP-2136x 系列内核改进的基础上，ADI 的 SHARC 开发团队制定了更高的性能目标，并采用台积电 (TSMC) 的 65nm 硅工艺继续优化性能和成本平衡。通过仔细的工程设计和规划，ADI 在2008年11月正式发布了ADSP-2146x 系列处理器，其内核性能可达 450MHz，与最接近的竞争产品相比几乎高出30%。然而，ADI 设计团队并不满足于仅仅增强性能，开始寻求创新的方式来大幅度提高运算性能，同时对功耗和成本的影响降至最小。

许多工程师利用浮点处理器提供的宽动态范围实现各种算法，如图案检测、数据压缩/解压缩、加密/解密和自适应滤波。在其中的许多运算密集型算法中，快速傅里叶变换 (FFT)、有限冲击响应 (FIR) 滤波器和无限冲激响应 (IIR) 滤波器等一些基本的信号处理单元得到了广泛使用，并作为大多数数字信号处理应用的基础。专注于这些内核信号处理构建模块的 ADI 公司开始将这些功能集成进 2146x DMA 架构中，以便进一步增强 SHARC 内核的 450MHz 性能。

在简单的编程模型基础上，DSP 工程师可以将这些“加速器”的每个看作是一个简单的外设。每个加速器配置有自己的本地存储器用于数据和系数存储，从而不会增加内核处理器的开销。另外，还有一组加速器专用寄存器用于设置加速器，包括主存储器中的系数起始地址、计数器等信息。当设置完成后，程序就开始按顺序运行，用户只需简单地等待表示处理结束的中断。

下图是其中一种加速器的例子。

(Photo: http://www.prnasia.com/sa/2009/09/23/2009092318480.jpg )

ADSP-2146x 系列中的有限冲激响应滤波器加速器

FIR 加速器包含一个 1K 字的本地存储器用于存储系数，另外 1K 字的存储器用于存储延时线数据。FIR 运算单元包括4个并行的 MAC (乘法累加)单元，每个单元的工作频率是内核时钟频率的一半。运算单元都能够利用80位精确累加器执行32位浮点或32位定点处理。理论上，除了内核提供的 2.7GFlops 性能外，这个引擎还能提供1.8Gflops 的处理能力。因此与第三代产品相比，第四代产品大体上将可用浮点性能增加了一倍。

FIR 加速器可以用于单次迭代模式，这意味着完整的滤波器实现可以适配进本地存储器(滤波器长度<=1024)，或者也可以设置 FIR 加速器以支持多次迭代模式。在多次迭代模式，支持的较大 FIR 滤波器长度是4096个抽头。为了提高灵活性，用户可用的窗口尺寸变化范围可从1到1024个样本，而针对多速率滤波器(插值/抽取)和多通道滤波器(最多32个通道)的附加模式组成了完整的功能规范。

这种 FIR 加速器和额外的 IIR/FFT 加速器为各种信号处理应用提供了创新的低性价比提升方式，再次突出了 ADI 做出的以最小成本开销实现领先性能的承诺。

ADSP-2146x 架构平衡考虑

由于 ADSP-2146x 系列处理器可以提供 2.7GFlops 的内核运算性能，存储器密集系统的设计师面临的主要挑战是管理来去各种存储器和外设子系统的数据传送。如果在设计阶段没有考虑这些要求，内核可能由于较慢的大容量存储器而被迫等待新的数据进行处理，或由于多个系统资源存取相同存储区域而导致内核死机。为了尽量减小这些潜在的瓶颈，ADSP-2146x 系列内置了最多达67个直接存储器存取 (DMA) 通道用于外设和内存之间的数据传送。同时集成了工作频率达内核时钟频率一半的16位 DDR2 接口，使得用于存储密集型应用时的性能较大。这种内核与外部存储器之间的1:1时钟比例极大地促进了数据的快速传送，并且开销很小，还能支持其它功能，比如从外部存储器中直接执行代码。

内部 SRAM 资源增加到了 5Mb，这是所有 SHARC 处理器中较大的存储器容量。连接内核的带宽仍是 7.2GBps，因此保证了内部运算任务的高速执行。这种存储器在架构上被划分为4个不连续模块(模块0-模块3)，允许从多个系统资源同时进行零开销访问。

为了进一步优化存储器的使用，ADI 开发出了名为 VISA (可变指令集架构)的内核增强特性。到第三代处理器为止的所有 SHARC 用的都是48位的固定指令长度。对于经常使用的指令来说，这会导致非最优的 PM 代码存储器使用。这些指令经过优化，去除了操作码中的冗余位，产生了新的16位和32位宽指令。程序定序器经过更新以识别这些新的优化指令，从而使 PM 代码效率提高近20%。为了实现后向兼容，VISA 模式是源代码编译器的一个选项，这意味着希望保持二进制代码兼容性的用户可以继续使用原来的48位方法学。

所有上述架构增强特性都使系统开发人员能以较佳的、用户友好的方式充分利用 ADSP-2146x 的高性能资源。

性能可扩展性

ADSP-2146x 系列处理器能为系统开发人员选择满足系统成本和性能要求的处理器提供较大的灵活性。这个系列中的所有成员采用相同大小的内部 SRAM 存储器，允许开发人员保持单一的软件架构，但可以通过选择较少外设或较低性能指标的处理器来优化系统成本。

对于要求的性能超出单个处理器的系统，ADI 公司再次引入了链路口技术，以支持可扩展的多处理器平台开发。共有两个链路口可用于处理器间通信，每个端口8位宽，工作频率可达 166MHz。这些双向端口可以被编程为发送或接收，不需要外部逻辑，还能用作处理器的引导结构。

智能集成

随着信号处理系统越来越复杂和成本压力的不断增加，处理器开发团队一直在努力利用创新的外设和加速器集成方法提高 DSP 内核子系统的性能。

如前所述，ADSP-2146x 采用领先的创新集成进一步增强了性能，包括 FIR/IIR/FFT 加速器、高带宽 DDR2 接口和链路口。

除了已经成为最新 SHARC 处理器上标准配置的8通道 ASRC、SPDIF 收发器和串行通信接口 (SPORT、UART、SPI、TWI) 外，市场关注的一些增强功能也增加进了ADSP-2146x系列产品中。

针对汽车应用，SHARC 外设功能组中新增加了媒体局部总线 (MLB) 接口，以支持汽车下一代的多媒体应用。ADSP-2146x 结合了数字传输内容保护 (DTCP) 协议加速器，可以从 MOST 系统中的 MLB 总线接收和发送加密的数字多媒体内容。

针对工业应用，第四代 SHARC 中还增加了16通道的脉宽调制 (PWM) 输出。这些 PWM 模块被安排为4×4输出，可以通过在软件中进行模式编程来支持边缘和中心对齐的波形，并且完全支持停滞时间控制。

(Photo: http://www.prnasia.com/sa/2009/09/23/20090923187963.jpg )

第四代 SHARC ADSP-2146x 评估平台