【tar压缩】是什么?

当我们谈论【tar压缩】时,实际上涉及到两个紧密相关但概念不同的步骤:首先是使用 tar 工具进行文件的“打包”或“归档”,然后是对这个打包后的文件进行“压缩”。

什么是 tar?

tar(全称 Tape Archive)最初设计用于在磁带上创建文件归档。它的主要功能是将多个文件和目录合并成一个单一的文件,称为“归档文件”。这个过程中,tar 会保留原始文件的目录结构、权限、时间戳等元数据。重要的是,**tar 本身并不进行文件大小的压缩**,它只是一个打包工具。

什么是压缩?

压缩是一种通过特定算法减小文件大小的技术。常见的压缩算法包括 gzip, bzip2, xz 等。当一个文件被压缩后,其内容会被编码,占用更少的存储空间,传输时也能节省带宽。要使用压缩后的文件,需要先进行解压缩,将其恢复到原始大小。

【tar压缩】的组合意义

因此,【tar压缩】通常指的是先用 tar 将多个文件或目录打包成一个 `.tar` 归档文件,然后再使用一个压缩工具(如 gzip 或 bzip2)对这个 `.tar` 文件进行压缩,生成一个 `.tar.gz` 或 `.tar.bz2` 等后缀的压缩归档文件。或者,更常见的是,现代的 tar 工具集成了压缩功能,允许您在一个命令中同时完成打包和压缩的操作。

为什么使用 tar 压缩?

使用 tar 进行打包并结合压缩带来了诸多好处,使其成为在类 Unix 系统(如 Linux、macOS)中管理文件集合的常用方式:

  • 方便管理多个文件: 将分散在不同位置的多个文件和目录整合成一个单一文件,极大地简化了复制、移动、删除或传输操作。您只需要处理一个文件,而不是成百上千个。
  • 保留目录结构和元数据: Tar 忠实地记录了原始文件的目录层级、文件权限(读、写、执行)、所有者、组以及时间戳等信息。这对于备份和迁移文件系统至关重要,确保恢复后文件属性不变。

  • 节省存储空间: 对打包后的文件进行压缩,可以显著减小其占用的磁盘空间,尤其对于包含大量文本文件、日志文件或可执行程序的情况。
  • 节省传输带宽和时间: 传输一个压缩后的归档文件比传输大量原始文件或一个未压缩的大文件要快得多,也消耗更少的网络资源。
  • 标准化: Tar 是一个历史悠久且广泛使用的标准工具,生成的归档文件格式通用,几乎所有类 Unix 系统都支持,便于跨系统交换文件。

哪里使用 tar 压缩?

Tar 压缩文件(如 `.tar.gz`, `.tar.bz2`, `.tar.xz`)在许多场景下都非常普遍:

  • 软件分发: 许多开源软件的源代码和预编译二进制包常常以 tar 压缩文件的形式发布。用户下载后解压即可获取安装文件或源码。
  • 系统备份: 打包和压缩特定目录(如家目录、配置文件目录等)是常见的系统备份方法。
  • 文件归档和存储: 将不常访问但需要保留的文件或项目目录打包压缩,以节省存储空间。
  • 数据迁移和传输: 在不同的服务器或计算机之间移动大量文件时,先打包压缩再传输可以提高效率和可靠性。
  • 日志文件管理: 定期对旧的日志文件进行打包压缩,既保留了记录,又释放了磁盘空间。

Tar 压缩能压缩多少?

Tar 压缩的效率(即压缩比)取决于多种因素,没有一个固定的百分比。

  • 原始文件类型:

    • 文本文件: 包含大量重复字符或模式的文本文件(如源代码、日志、CSV 文件)通常能获得很高的压缩比。
    • 二进制文件: 可执行程序、库文件等的压缩效果通常也不错。
    • 已压缩文件: 尝试压缩已经是压缩格式的文件(如 JPEG 图片、MP3 音频、ZIP 压缩包、视频文件等)通常效果甚微,有时甚至可能因为压缩算法的开销导致文件略微变大。这是因为这些文件内部已经是紧凑编码的。
  • 文件内容冗余度: 文件内容中的重复模式越多,压缩算法找到并替代它们的可能性就越大,压缩比也就越高。
  • 使用的压缩算法: 不同的压缩算法在压缩比和速度之间存在权衡。

    • gzip (`.tar.gz`): 压缩速度快,压缩比适中。是最常见的 tar 压缩格式。
    • bzip2 (`.tar.bz2`): 压缩速度比 gzip 慢,但通常能获得更好的压缩比。
    • xz (`.tar.xz`): 压缩速度最慢,但通常能提供最高的压缩比。适用于对存储空间要求极高、对压缩时间不太敏感的场景。

因此,一个包含大量日志文件的目录可能能被压缩到原始大小的 10-20%,而一个包含视频和图片文件的目录可能只能压缩到原始大小的 80-90% 或更少。

如何使用 tar 压缩?

tar 命令非常强大灵活,以下是一些最常见和基础的使用方法:

基本的 tar 命令结构

tar [选项] [归档文件名] [文件或目录列表]

核心选项通常放在归档文件名前面。

常用的核心操作选项

  • -c:创建(Create)一个新的归档文件。
  • -x:提取(Extract)归档文件中的内容。
  • -t:列出(List)归档文件的内容,但不提取。
  • -v:显示详细信息(Verbose),在处理文件时显示文件名。
  • -f:指定(File)归档文件名。这个选项几乎总是必需的,因为它告诉 tar 你要操作的是哪个文件。

结合压缩选项

为了在打包的同时进行压缩或解压缩,可以在上述核心操作选项后加上对应的压缩选项:

  • -z:使用 gzip 进行压缩/解压缩。生成或处理 .tar.gz.tgz 文件。
  • -j:使用 bzip2 进行压缩/解压缩。生成或处理 .tar.bz2.tbz 文件。
  • -J:使用 xz 进行压缩/解压缩。生成或处理 .tar.xz.txz 文件。

怎么进行 tar 压缩和解压缩操作?

以下是具体的实践操作示例:

1. 打包文件但不压缩 (创建 .tar 文件)

将目录 my_folder 和文件 file1.txt 打包到 archive.tar

tar -cvf archive.tar my_folder file1.txt

选项解析:

-c: 创建

-v: 显示过程

-f archive.tar: 指定归档文件名为 archive.tar

my_folder file1.txt: 要打包的对象

2. 打包并使用 gzip 压缩 (创建 .tar.gz 文件)

这是最常见的 tar 压缩格式。将目录 my_folder 打包并压缩到 archive.tar.gz

tar -cvzf archive.tar.gz my_folder/

选项解析:

-c: 创建

-v: 显示过程

-z: 使用 gzip 压缩

-f archive.tar.gz: 指定归档文件名为 archive.tar.gz

my_folder/: 要打包的对象 (注意斜杠表示整个目录)

3. 打包并使用 bzip2 压缩 (创建 .tar.bz2 文件)

将多个文件打包并压缩到 archive.tar.bz2

tar -cvjf archive.tar.bz2 file1.txt file2.txt another_folder/

选项解析:

-c: 创建

-v: 显示过程

-j: 使用 bzip2 压缩

-f archive.tar.bz2: 指定归档文件名为 archive.tar.bz2

file1.txt file2.txt another_folder/: 要打包的对象列表

4. 打包并使用 xz 压缩 (创建 .tar.xz 文件)

将目录 project/ 打包并压缩到 archive.tar.xz

tar -cvJf archive.tar.xz project/

选项解析:

-c: 创建

-v: 显示过程

-J: 使用 xz 压缩

-f archive.tar.xz: 指定归档文件名为 archive.tar.xz

project/: 要打包的对象

5. 列出归档文件中的内容

查看 archive.tar.gz 中包含的文件列表:

tar -tvf archive.tar.gz

选项解析:

-t: 列出内容

-v: 显示详细信息(包括权限、所有者等)

-f archive.tar.gz: 指定要查看的归档文件

对于 .tar.bz2.tar.xz 文件,只需将 -z 替换为 -j-J

tar -tvjf archive.tar.bz2
tar -tvJf archive.tar.xz

6. 提取归档文件中的内容

提取 archive.tar 的内容到当前目录:

tar -xvf archive.tar

选项解析:

-x: 提取

-v: 显示过程

-f archive.tar: 指定要提取的归档文件

7. 提取 tar.gz 归档文件

提取 archive.tar.gz 的内容到当前目录:

tar -xvzf archive.tar.gz

选项解析:

-x: 提取

-v: 显示过程

-z: 使用 gzip 解压缩

-f archive.tar.gz: 指定要提取的归档文件

8. 提取 tar.bz2 归档文件

提取 archive.tar.bz2 的内容到当前目录:

tar -xvjf archive.tar.bz2

选项解析:同上,将 -z 换成 -j

9. 提取 tar.xz 归档文件

提取 archive.tar.xz 的内容到当前目录:

tar -xvJf archive.tar.xz

选项解析:同上,将 -z 换成 -J

10. 提取到指定目录

默认情况下,tar 会将内容提取到当前目录。可以使用 -C 选项指定提取目录(注意 -C 是大写):

tar -xvzf archive.tar.gz -C /path/to/destination/

这会将 archive.tar.gz 的内容提取到 /path/to/destination/ 目录下。请确保目标目录已经存在。

11. 仅提取归档中的特定文件或目录

您可以在命令末尾列出要提取的特定文件或目录的路径(路径必须与归档文件内记录的路径一致,可以通过 tar -tf 命令查看):

tar -xvzf archive.tar.gz my_folder/specific_file.txt another_folder/

这只会从 archive.tar.gz 中提取 my_folder/specific_file.txt 和整个 another_folder/ 目录。

12. 排除某些文件或目录

创建归档时,可以使用 --exclude 选项排除不需要打包的文件或目录:

tar -cvzf archive.tar.gz my_folder/ --exclude 'my_folder/*.log' --exclude 'my_folder/temp/'

这将打包 my_folder/,但排除其中所有以 `.log` 结尾的文件以及 my_folder/temp/ 子目录。

总结

【tar压缩】是类 Unix 系统中一项基础且强大的文件管理技术。通过将文件的打包(tar)与文件大小的压缩(如 gzip, bzip2, xz)相结合,可以高效地存储、传输和管理大量文件集合,同时保留原始文件的结构和属性。掌握 tar 命令的基本操作,特别是结合不同压缩选项的使用,对于系统管理、软件开发和日常文件处理都非常有益。

tar压缩

By admin

发表回复