利用TMS320C6201芯片进行图像压缩

yanqin | 2009-04-17 11:15:16 阅读：998

摘要：介绍了利用TMS320C6201 DSP芯片进行实时图像压缩的软件设计。结合该芯片的编程特点介绍了压缩算法，并给出了部分关键程序，具有一定的参考价值。

    关键词：图像压缩 C6201 FDCT变换霍夫曼编码

图像中含有丰富的信息，在现代科技中将图像作为一种探测手段，正受到越来越广泛的青睐。有很多探测设备，采用扫描成像仪器作为前端探测器。作为一种很常见的情况，成像仪器采集到的图像要通过无线信道进行发送。但是，图像数据通常都是海量数据，无线信道的传输带宽无法满足要求，必须对图像进行压缩处理，才能通过无线信道进行传输。

    实现图像实时无线传输必须研制专门的图像压缩，该压缩器须满足如下要求：（１）图像实时压缩?鸦（２）能够较好地保存图像质量。笔者以ＴＩ公司的高速ＤＳＰ芯片ＴＭＳ３２０Ｃ６２０１为核心的数字信号处理板作为图像压缩器的硬件平台，通过自行开发的压缩程序，实现了图像的实时压缩。

１数字信号处理板的硬件功能框图

数字信号处理板的硬件功能框图如图１所示。ＴＭＳ３２０Ｃ６２０１是一种高性能的定点数字信号处理器。工作频率为２００ＭＨｚ时，每个指令周期为５ｎｓ，运算速度可达１６００ＭＩＰＳ；具有ＶＬＩＷ(甚长指令集)体系结构，每周期８个３２ｂｉｔ的指令并行执行；８个独立的功能单元，有两个１６ｂｉｔ乘法器和６个算术逻辑单元；采用加载存储体系结构，数据在多处理单元之间的传输依靠３２个３２ｂｉｔ的通用寄存器。Ｃ６０００的存储器寻址空间为３２ｂｉｔ,片内有１Ｍｂｉｔ的ＳＲＡＭ。片内ＲＡＭ被分为两块：一是内部程序／ｃａｃｈｅ存储器，二是内部数据存储器。３２ｂｉｔ外部存储器接口（ＥＭＩＦ）可与不同存储器接口，可方便地配置不同速度、不同容量、不同复杂程度的存储器。此外，Ｃ６０００还有两通道Ｂｏｏｔ－ｌｏａｄｉｎｇＤＭＡ处理器、１６ｂｉｔ的主机接口ＨＰＩ、两个多通道缓冲串口（ＭｃＢＳＰ），并且其片内锁相环（ＰＬＬ）时钟发生器，可以对输入时钟进行不同的倍频处理。这种芯片用来处理图像压缩这种运算密集型的工作是非常合适的。功能框图的其它部分不再做介绍。

图3 图像压缩器的工作过程方框图

２图像压缩算法

图像压缩中的图像有彩色和灰度之分。考虑到彩色图像和灰度图像的压缩类似，且大多数的扫描成象设备扫的是灰度图像，所以仅以灰度图像的压缩为例介绍ＤＳＰ上的图像压缩。图像压缩算法原理图如图２所示。

图中，首先将原始灰度图像分为８×８的图块，然后对每一图像块进行ＦＤＣＴ变换，再将变换得到的ＤＣＴ系数使用量化表进行量化。量化后可得到如下形式的数据：

(x)是不为零的数据）

x  x  x  x  0  0  0  0

x  x  x  0  0  0  0  0

x  x  0  0  0  0  0  0

x  0  0  0  0  0  0  0

0  0  0  0  0  0  0  0

0  0  0  0  0  0  0  0

0  0  0  0  0  0  0  0

0  0  0  0  0  0  0  0

该数据在存储器中存放的顺序如下：

z[0]   z[1]   z[2]   z[3]   z[4]   x[5]   z[6]   z[7]

z[8]   z[9]   z[10]  z[11]  z[12]  z[13]  z[14]  z[15]

z[16]  z[17]  z[18]  z[19]  z[10]  z[21]  z[22]  z[23]

z[24]  z[25]  z[26]  z[27]  z[28]  z[29]  z[30]  z[31]

z[32]  z[33]  z[34]  z[35]  z[36]  z[37]  z[38]  z[39]

z[40]  z[41]  z[42]  z[43]  z[44]  z[45]  z[46]  z[47]

z[48]  z[49]  z[50]  z[51]  z[52]  z[53]  z[54]  z[55]

z[56]  z[57]  z[58]  z[59]  z[60]  z[61]  z[62]  z[63]

在存储器中，非零数据和零数据交替存放，不便于压缩，所以要对数据进行重排列，数据的重排列形式如下：

z[0]   z[1]   z[5]   z[6]   z[14]   z[15]   z[27]   z[28]

z[2]   z[4]   z[7]   z[13]  z[16]   z[26]   z[29]   z[42]

z[3]   z[8]   z[12]  z[17]  z[25]   z[30]   z[41]   z[43]

z[9]   z[11]  z[18]  z[24]  z[31]   z[40]   z[44]   z[53]

z[10]  z[19]  z[23]  z[32]  x[39]   z[45]   z[52]   z[54]

z[20]  z[22]  z[33]  z[38]  z[46]   z[51]   z[55]   z[60]

z[21]  z[34]  z[37]  z[47]  z[50]   z[56]   z[59]   z[61]

z[35]  z[36]  z[48]  z[49]  z[57]   z[58]   z[62]   z[63]

变换完成后再根据编码表对ＤＣ系数和ＡＣ系数分别进行编码，就完成了图像的压缩。

图4 量化表

３利用ＤＳＰ芯片进行图像压缩

３．１图像压缩器的工作过程

图像压缩器工作过程方框图如图３所示。

图像数据通过Ｉ／Ｏ接口送入数字信号处理板，由ＤＳＰ芯片中的ＤＭＡ控制器负责将数据放入输入缓冲区中，ＤＳＰ对缓冲的图像数据进行压缩后，通过ＨＰＩ接口将压缩数据送出。

３．２编程介绍

这里主要介绍压缩参数初始化和压缩程序。

３．２．１压缩参数初始化

由图２所示的图像压缩算法可知，图像压缩过程中需要量化表和编码表，量化表如图４（ａ）所示。

    量化操作就是把８×８图块进行ＦＤＣＴ变换，将变换后的的ＤＣＴ系数用量化表元素来除。由于ＤＳＰ中有硬件乘法器和移位指令，为了充分提高程序的执行速度，应该将除法运算转化为乘法运算和移位运算，对上面的量化表元素逐个求倒数并用１６进制表示，如图４（ｂ）所示。

编码表有两个，一个是直流差值编码表，另一个是交流系数编码表，如图５所示。

编码表中的最左端的一列代表中间码字，具体编码时要根据８ｘ８图块的ＤＣＴ系数产生中间码字，再由中间码字查编码表，将中间码字转换为霍夫曼码，完成编码。在ＤＳＰ程序初始化阶段要生成量化表和编码表，量化表可直接将图４（ｂ）所示的量化表元素代入来得到,编码表就要按照霍夫曼码的编码方法生成霍夫曼码来得到。由于在压缩过程中要频繁地查找编码表，因此，编码表的组织形式对程序的执行效率影响很大。

３．２．２压缩程序

图像压缩包括ＦＤＣＴ变换、标量量化、Ｚｉｇｚａｇ扫描和编码等几个步骤，下面分别介绍。

３．２．２．１ＦＤＣＴ变换

ＤＣＴ变换公式如下：

式中，Cu,Cv=

具体压缩的时候要采用ＤＣＴ变换的快速算法来加快程序的运行速度，将二维的ＤＣＴ变换分解为两个一维的ＤＣＴ变换，可以有效地降低计算量。ＣＣＳ２．０(ＣｏｄｅＣｏｍｐｏｓｅｒＳｔｕｄｉｏ)中提供了一个成熟的Ｃ语言函数库，里面包含了进行ＦＤＣＴ变换的函数。函数原型如下：

ｖｏｉｄｆｄｃｔ＿８×８(ｓｈｏｒｔ *ｄｃｔ＿ｄａｔａ, ｕｎｓｉｇｎｅｄｎｕｍ＿ｆｄｃｔｓ)；

函数中ｄｃｔ＿ｄａｔａ指针指向待变换的图像数据，ｎｕｍ＿ｆｄｃｔｓ是进行ＤＣＴ变换的图像块的数目。该函数可以对一大块连续存放的图像块进行ＤＣＴ变换，特别针对ＴＭＳ３２０Ｃ６２０１ＤＳＰ芯片的特点进行了优化。考虑到存储器的等待时间和指令的并行等问题，执行效率非常高，具体的程序开销可以通过如下公式计算：

时钟周期数＝４８＋１６０*ｎｕｍ＿ｆｄｃｔｓ;

要在自己的工程中使用这个函数，必须把ｉｍｇ６２ｘ．ｌｉｂ函数库添加到工程中，并且在主程序文件中包含ｆｄｃｔ＿８×８．ｈ头文件。

３．２．２．２标量量化

所谓标量量化就是对８×８图像块的ＤＣＴ变换系数使用量化表逐个相除并四舍五入。ＣＣＳ２．０提供了一个量化函数，其原型如下：

ｖｏｉｄｑｕａｎｔｉｚｅ

(

ｓｈｏｒｔ *ｄａｔａ, ／* Ｄａｔａｔｏｂｅｑｕａｎｔｉｚｅｄ． *／

ｉｎｔｎｕｍ＿ｂｌｋｓ, ／*Ｎｕｍｂｅｒｏｆ６４－ｅｌｅｍｅｎｔｂｌｏｃｋｓ．?*／

ｉｎｔｂｌｋ＿ｓｉｚｅ, ／*Ｂｌｏｃｋｓｉｚｅ (ｍｕｌｔｉｐｌｅｏｆ８)． *／

ｃｏｎｓｔｓｈｏｒｔ *ｒｅｃｉｐ＿ｔｂｌ, ／*Ｑｕａｎｔ．ｖａｌｕｅｓ (ｒｅｃｉｐｒｏｃａｌｓ)． *／

ｉｎｔｑ＿ｐｔ／*Ｑ－ｐｏｉｎｔｏｆＱｕａｎｔｖａｌｕｅｓ．*／

);

将图４（ｂ）所示的量化表元素代入程序，ｂｌｋ＿ｓｉｚｅ为６４，ｑ＿ｐｔ为１６，ｄａｔａ指向量化数据，即可进行快速的量化。该程序同样经过了优化，具体的程序开销可按如下公式计算：

时钟周期数＝２５＋(ｂｌｋ＿ｓｉｚｅ／１６)*４＋ｎｕｍ＿ｂｌｋｓ*１２)

该函数同样包含在ｉｍｇ６２ｘ．ｌｉｂ库中，程序中应包含ｑｕａｎｔｉｚｅ．ｈ头文件。

３．２．２．３ＺｉｇＺａｇ扫描

ＺｉｇＺａｇ扫描就是对数据进行重排列。该部分功能简单、运算量也不大，但是对存储器的访问非常频繁，而且影响处理器执行速度的主要是对存储器的访问速度。一般情况下，ＣＰＵ访问内部存储器需要４个时钟周期，访问外部存储器的速度要比内部存储器的速度慢得多，具体情况应根据实际使用的外部存储器的类型而定。由于ＴＭＳ３２０６２０１ＤＳＰ芯片每秒钟最多可以执行８条指令，如果让ＤＳＰ芯片经常处于等待状态是非常大的浪费。解决该问题的最有效的办法是充分利用数据总线的宽度并让软件进行流水线执行。ＴＭＳ３２０Ｃ６２０１的数据总线宽度是３２位，一般情况下ＤＣＴ系数使用一个短整型数，只有１６位宽度，如果每次同时从存储器中读写两个数，则可以减少一半访问存储器的次数。由于ＴＭＳ３２０Ｃ６２０１有８个功能单元，ＣＰＵ可以在处理当前数据的同时去存储器取下一个数据。通过流水线，ＣＰＵ可以做到每周期访问一次存储器，这样可以使程序的执行效率大大提高。一般情况下软件的流水线安排是由编译优化系统完成的，程序员所要做的是让自己的程序符合流水线执行的要求，并且让优化后的流水线周期尽量短。流水线的要求主要有以下几点：

（１）程序所使用的寄存器数目不能超过３２个；

（２）程序所使用的条件寄存器数目不能超过５个；

（３）程序中不能含有分支语句，可能的话尽量使用条件指令；

（４）一个寄存器中的变量值不能存放太长时间，实在不行就换个寄存器存放；

（５）程序所使用的ＣＰＵ左右两边的资源尽量平衡，一般情况下，平衡的资源使用换来的是比较短的流水线周期；

（６）程序中包含的指令不能太多。

对于用线性汇编语言编写的程序，应该在程序编写时注意这些问题。对一个用Ｃ语言编写的程序，可以通过观察编译系统产生的优化后的汇编语言文件来获得相关的信息。具体程序略。

３.２.２.４编码

编码部分主要是对量化后的ＤＣＴ系数进行处理，主要利用了相邻图像块之间的相关性、量化后的ＤＣＴ系数矩阵的连零特性和霍夫曼编码应进行压缩编码。该部分主要涉及了查表、移位运算和存储器读写。ＤＣ差值／ＡＣ系数等级表如图６所示。

    ＤＣ系数的编码流程图如图７所示。

ＡＣ系数的编码流程图如图８所示。

其中，ＺＺ（Ｋ）编码是对不为零的ＡＣＤＣＴ系数进行编码，编码方法可参考ＤＣ差值编码。

由于在ＡＣ编码过程当中分支语句比较多，为了程序的流水线执行，同时为了指令的并行性，大量地使用了条件指令。但是应该注意，在ＴＭＳ３２０Ｃ６２０１中只有Ａ１、Ａ２、Ｂ０、Ｂ１、Ｂ２五个条件寄存器，不可能满足所有的需要，因此一定要尽量简化程序。在实际使用中，使用该压缩器压缩一幅５１２×５１２的灰度图像需要的时间不到５５ｍｓ，配合适当的数据接口可满足对数据率为３２Ｍｂｉｔ／ｓ的扫描图像进行实时压缩。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。