在Bash中没有内置并行运行命令的方法。GNU Parallel是用于执行此操作的工具。

顾名思义,GNU Parallel可用于并行构建和运行命令。您可以使用不同的参数运行同一命令,无论它们是文件名,用户名,主机名还是从文件读取的行。GNU Parallel提供了对许多最常见操作(输入行,输入行的各个部分,指定输入源的不同方式等)的简写引用。并行可以从xargs其输入源替换命令或将命令提供给多个不同的Bash实例。

有时候你执行的命令也许不需要等待上一个命令运行完成之后再运行下一个,因此你可能会想到让这些命令并行运行,减少你的任务执行时间,或者加快项目构建速度

在本教程中,简单介绍Parallel命令的常见用法和解释

安装

从源码中构建,适用于任何操作系统

wget http://ftp.gnu.org/gnu/parallel/parallel-latest.tar.bz2
sudo tar xjf parallel-latest.tar.bz2
cd parallel-latest/
sudo ./configure && make
sudo make install

在ubuntu/debian/Linux mint等发行版

sudo apt-get install parallel
ubuntu/debian

使用parallel并行执行多个命令

使用parallel非常简单,只需要在parallel后面连接多个命令,并且使用空格分开,下面命令中将会并行执行ls,echo foo,pwd命令

parallel -vk  ::: ls 'echo foo' pwd

从标准输入读取parallel命令参数

在某些情况会使用标准输入读取命令参数,然后传递给parallel执行任务,下面是一个简单的示例

echo 1,2 | parallel  -d, echo {}

在这个示例parallel通过管道从标准输入读取命令参数,然后将参数传递给后面的echo命令,大括号{}这里将会填充从标准输入中的参数,-d,表示使用逗号,作为参数分隔符

命令输出如下所示

Academic tradition requires you to cite works you base your article on.
When using programs that use GNU Parallel to process data for publication
please cite:

  O. Tange (2011): GNU Parallel - The Command-Line Power Tool,
  ;login: The USENIX Magazine, February 2011:42-47.

This helps funding further development; AND IT WON'T COST YOU A CENT.
If you pay 10000 EUR you should feel free to use GNU Parallel without citing.

To silence this citation notice: run 'parallel --citation'.

1
2

还有常见的用法就是parallel后面接着需要执行的命令,如下所示

parallel echo ::: A B C

这将并行打印ABC,输出如下

Academic tradition requires you to cite works you base your article on.
When using programs that use GNU Parallel to process data for publication
please cite:

  O. Tange (2011): GNU Parallel - The Command-Line Power Tool,
  ;login: The USENIX Magazine, February 2011:42-47.

This helps funding further development; AND IT WON'T COST YOU A CENT.
If you pay 10000 EUR you should feel free to use GNU Parallel without citing.

To silence this citation notice: run 'parallel --citation'.

A
B
C

使用parallel代替 xargs

例如,使用gzip替换xargs压缩当前目录及其子目录中的所有html文件:

find . -type f -name '*.html' -print | parallel gzip

如果您需要保护特殊字符(例如文件名中的换行符),请使用find的 -print0 选项

当文件数量太大而无法通过一次mv调用处理时,可以使用Parallel从当前目录移动文件:

find . -depth 1 \! -name '.*' -print0 | parallel -0 -X mv {} destdir

如您所见,{}被替换为从标准输入读取的每一行。虽然使用在大多数情况下都可以使用,但不足以处理所有文件名。如果需要在文件名中包含特殊字符,则可以使用

find . -depth 1 \! -name '.*' -print0 | parallel -0 mv {} destdir

如上所述。

这将运行mv与当前目录中的文件一样多的命令。您可以通过添加-X 选项

find . -depth 1 \! -name '.*' -print0 | parallel -0 -X mv {} destdir

GNU Parallel可以替换某些从文件读取的行上使用的常见用法(在这种情况下,文件名每行列出一个):

while IFS= read -r x; do
	do-something1 "$x" "config-$x"
	do-something2 < "$x"
done < file | process-output

具有更紧凑的语法,让人联想到lambdas:

cat list | parallel "do-something1 {} config-{} ; do-something2 < {}" |
           process-output

Parallel提供了一种内置的机制来删除文件名的扩展名,这使其可以进行批处理文件转换或重命名:

ls *.gz | parallel -j+0 "zcat {} | bzip2 >{.}.bz2 && rm {}"

这将使用bzip2重新压缩当前目录中所有以.gz结尾的文件,每个CPU核心(-j + 0)并行运行一个作业。(在这里我们为简洁起见使用ls;面对包含意外字符的文件名,使用上面的find方法更健壮。)并行可以从命令行获取参数;以上也可以写成

parallel "zcat {} | bzip2 >{.}.bz2 && rm {}" ::: *.gz

如何保证parallel输出的顺序

如果命令生成输出,则可能要在输出中保留输入顺序。例如,以下命令

{
    echo myfreax.com ;
    echo debian.org ;
    echo freenetproject.org ;
} | parallel traceroute

将作为输出显示首先完成的traceroute的调用。添加-k 选项

{
    echo myfreax.com ;
    echo debian.org ;
    echo freenetproject.org ;
} | parallel -k traceroute

将确保traceroute myfreax.com首先显示的输出。

如何并行执行文件中的命令

最后,可以使用Parallel并行运行一系列Shell命令,比如‘cat file | bash’。在文件创建一系列shell命令以对其进行操作并不少见。并行可以加快速度。比如你有一个文件file, 包含一系列shell命令,每行一个,如下所示

ls
touch
date
file
parallel -j 10 < file

shell将会评估并执行命令,并一次执行十个命令,直到完成为止,有关完整的描述,请参考GNU Parallel文档

如果你喜欢我们的内容可以选择在下方二维码中捐赠我们,或者点击广告予以支持,感谢你的支持