代码示例|一文读懂压缩算法

代码示例|一文读懂压缩算法
2024年12月03日 15:06 电子产品世界

概述

本文引用地址:

压缩算法是一种通过减少数据量来节省存储空间或传输数据的技术。压缩算法可以分为两种类型:有损压缩和无损压缩。

· 有损压缩算法会牺牲一定的数据精度或质量,在压缩数据的同时丢失一些信息。这种算法适用于音频、视频等多媒体数据,例如JPEG和MP3等格式。

· 无损压缩算法则能够完全还原原始数据,不会造成数据丢失。这种算法适用于需要准确还原数据的场景,如文档、代码等,例如ZIP和GZIP等格式。

常见的压缩算法包括哈夫曼编码、Lempel-Ziv算法、Run-Length Encoding(RLE)等。这些算法通过不同的方式对数据进行编码和解码,以实现数据压缩和解压缩的目的。

压缩算法的应用

压缩算法在各种领域广泛应用,包括但不限于以下几个方面:

· 文件传输和存储:压缩算法可以减少文件的大小,使文件传输更加高效快速。在网络传输、电子邮件附件、云存储等场景下,压缩算法可以节省带宽和存储空间。

· 多媒体数据:音频、视频等多媒体数据通常是体积较大的,使用压缩算法可以减少文件大小,提高数据的传输速度和播放效果。常见的视频压缩算法包括H.264、HEVC等;音频压缩算法包括MP3、AAC等。

· 数据库压缩:在数据库管理系统中,数据通常存储在磁盘上,通过压缩算法可以减少数据占用的存储空间,并提高数据库的性能和响应速度。

· 图像处理:在数字图像处理中,压缩算法可以减小图像文件的大小,在图像传输和存储中起到重要作用。常见的图像压缩算法包括JPEG、PNG等。

· 网页内容压缩:为了减少网页加载时间和用户访问流量,网站通常会使用压缩算法对HTML、CSS、JavaScript等网页内容进行压缩,提高用户体验和网站性能。

总的来说,压缩算法在信息技术领域的各个方面都有广泛的应用,可以有效地节省存储空间、提高数据传输效率和优化性能。

适合ARM跑的压缩算法

ARM架构是一种广泛应用于移动设备、嵌入式系统和物联网设备中的处理器架构。在运行在ARM处理器上的设备或系统上选择合适的压缩算法,需要考虑算法的性能、资源消耗和适应性。

以下是一些适合与ARM跑的压缩算法:

· Zstandard(Zstd):Zstandard是一种快速的压缩算法,性能优秀,并且可以在ARM处理器上高效运行。它具有适应性强,可以在不同的场景下应用,如数据传输、数据库压缩等。

· LZ4:LZ4是一种高速压缩算法,适合于需要快速压缩和解压的场景。它具有低延迟和高吞吐量的特点,适合在ARM处理器上运行。LZ4是一种LZ系列压缩算法,着重于压缩和解压的速度,压缩率相对较低。LZ4压缩率较低,算法复杂度和内存消耗中等,但是压缩和解压速度,尤其是解压速度远超其他算法。因为其综合性能优秀,在Linux、Android中的内存压缩技术一般使用LZ4压缩算法。LZ4 HC,有着更好的压缩率,但是算法复杂度大幅提升,且压缩速度也大幅减慢。

· Brotli:Brotli是由Google开发的一种通用压缩算法,特点是高压缩率和较好的性能。它在文件传输、网络传输等场景下表现优异,也可以在ARM处理器上高效运行。

· Snappy:Snappy是Google开发的一种快速压缩算法,适合于需要高速压缩和解压的场景。它在ARM处理器上表现优秀,适用于数据传输、日志压缩等应用。

· Deflate(如zlib):Deflate是一种常见的无损压缩算法,广泛应用于各种领域。zlib是实现Deflate算法的一个流行库,也可以在ARM处理器上使用,并具有较好的性能。

这些压缩算法在ARM处理器上都有良好的性能表现,可以根据具体的应用场景和需求选择合适的算法。值得注意的是,优化算法的实现、调整参数和选择合适的压缩级别,也可以进一步提高在ARM处理器上的性能表现。

Huffman霍夫曼(Huffman)编码使用变长编码表对源符号进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。霍夫曼编码使用的编码表,使用霍夫曼树来进行存储,让出现概率最高的编码最容易查找,以提升解码速度。霍夫曼编码算法的压缩率分布在20%-90%,因为要扫描整个数据来构建霍夫曼树,所以其压缩速度较慢,且需要一定的内存来存储编码表,但是解压速度较快。霍夫曼的算法复杂度较简单。

RLE(Run Length Encoding),也称为行程编码,压缩算法是一种无损压缩算法。算法特点:简单、易实现。使用RLE压缩方法可以将 RRRRRGGBBBBBBABCD 压缩为 5R2G6B1A1B1C1D。基于RLE算法升级,可以将RRRRRGGBBBBBBABCD可以压缩为b’x85Rx82Gx86Bx03ABCD’,0x85表示后面有5个相同的字符,0x03表示后面有3个不连续的字符。RLE的实现非常简单,针对一些图片颜色少或重复字符多的文件有非常好的压缩率,RLE的适用场景比较少,通用压缩率较差。

LZ77是一种基于字典的算法,它将长字符串(也称为短语)编码成短小的标记,用小标记代替字典中的短语,从而达到压缩的目的。LZ77算法的压缩率、速度、内存消费都是中等,但是代码复杂度较低,适用于MCU的使用。

LZO压缩算法采用(重复长度L,指回距离D)代替当前已经在历史字符串中出现过的字符串。LZO致力于解压速度,不同的参数下的LZO压缩率不同。LZO内存消耗中等,解压速度较快,压缩速度较快,但是代码复杂度较低,适用于Bootloader等追求压缩率和解压速度的场景。

性能排序

在实际应用中,不同的压缩算法因为适用场景、数据类型、硬件平台等因素的不同,其性能表现也会有所差异。以下是一些常见的压缩算法按照一般趋势的性能排序:

压缩率(从高到低):

有损压缩:JPEG2000 > WebP > H.265 (HEVC) > H.264 (AVC) > JPEG

无损压缩:FLIF > Brotli > Zstandard > LZMA (7-Zip) > DEFLATE (zlib)

压缩速度(从快到慢):

Snappy > LZ4 > Zstandard > Deflate (zlib) > Brotli

这里的快慢仅作为一般参考,具体情况因数据大小、数据类型、硬件性能等因素可能有所不同。

解压速度(从快到慢):

Snappy > LZ4 > Zstandard > Deflate (zlib) > Brotli

同样,解压速度也会受到实际场景的影响,不同算法适用于不同的应用需求。

内存消耗(从少到多):

Snappy > LZ4 > Zstandard > Deflate (zlib) > Brotli

内存消耗较低的压缩算法可以在受限制的环境下更好地工作,如嵌入式设备等。

压缩算法代码示例

以下是一个简单的使用zlib库进行数据压缩和解压缩的C语言示例代码:

在这个示例代码中,我们使用了zlib库提供的函数进行数据压缩和解压缩操作。压缩函数 compress_data 将输入数据进行压缩,并将压缩后的数据存储在 compressed_data 中,返回压缩后的数据长度;解压缩函数 decompress_data 对压缩后的数据进行解压缩,并将解压缩后的数据存储在 decompressed_data 中,返回解压缩后的数据长度。在主函数中,我们对一个简单的字符串进行压缩和解压缩操作,并输出结果。

请注意,这段示例代码使用了zlib库,因此在编译时需要链接zlib库。在Linux系统下,可以使用 -lz 选项进行链接。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片