当前位置：首页>Linux>Linux命令每日一清单039:awk--文本处理命令速查表

Linux命令每日一清单039:awk--文本处理命令速查表

2026-06-28 14:18:01

awk是Linux/Unix系统中最强大的文本处理工具之一，它结合了模式匹配、字段处理、流程控制和格式化输出等功能，特别适合处理结构化文本数据（如日志文件、CSV、配置文件等）。awk的名字取自其三位创始人的姓氏首字母：Aho、Weinberger和Kernighan。

awk的工作方式是逐行读取文件，对每行应用指定的模式匹配和动作。它默认以空白字符作为字段分隔符，内置丰富的变量和函数，支持算术运算和关联数组。掌握awk是进行文本分析、数据提取和报告生成的核心技能。

1. 基本用法

命令	说明
`awk '{print}' file.txt`	打印所有行
`awk '{print $1}' file.txt`	打印第一个字段
`awk '{print $1, $3}' file.txt`	打印多个字段
`awk 'NR==1{print}' file.txt`	打印第一行
`awk 'NR>1{print}' file.txt`	跳过表头
`awk 'END{print}' file.txt`	打印最后一行

2. 字段分隔符

命令	说明
`awk -F ':' '{print $1}' /etc/passwd`	使用冒号分隔符
`awk -F ',' '{print $2}' file.csv`	CSV文件第二列
`awk -F '\t' '{print $1}' file.tsv`	TSV文件第一列
`awk -F '[ :]' '{print $1}' file.txt`	多个分隔符（空格或冒号）
`awk 'BEGIN{FS="\|"} {print $2}' file.txt`	在脚本中设置FS
`awk -F ':' 'BEGIN{OFS=","} {print $1,$3}' /etc/passwd`	输入输出分隔符不同

3. 模式匹配

命令	说明
`awk '/error/ {print}' app.log`	匹配包含"error"的行
`awk '/^ERROR/ {print}' app.log`	匹配以"ERROR"开头的行
`awk '$3 > 100 {print}' file.txt`	第三字段大于100的行
`awk '$1 == "root" {print}' /etc/passwd`	第一字段等于"root"的行
`awk 'NF == 3 {print}' file.txt`	恰好3个字段的行
`awk 'NF > 0 {print}' file.txt`	非空行
`awk 'NR >= 10 && NR <= 20' file.txt`	打印第10到20行
`awk '$2 ~ /^[0-9]+$/ {print}' file.txt`	第二字段全是数字的行

4. 计算与统计

命令	说明
`awk '{sum += $2} END {print sum}' file.txt`	求和第二列
`awk '{sum += $2} END {print sum/NR}' file.txt`	计算平均值
`awk '{count++} END {print count}' file.txt`	统计行数（同`wc -l`）
`awk '{sum += $2} END {print "Total:", sum}' file.txt`	带标签的输出
`awk 'BEGIN{print 5*7}'`	简单算术运算
`awk '$2 > 0 {print $1, $2*1.2}' file.txt`	字段运算
`awk '{print sqrt($1)}' file.txt`	数学函数（平方根）
`awk '{print int($1)}' file.txt`	取整

5. 输出格式化

命令	说明
`awk '{printf "%s\t%s\n", $1, $2}' file.txt`	制表符分隔输出
`awk '{printf "%-20s %s\n", $1, $2}' file.txt`	左对齐列
`awk '{printf "%10s %10s\n", $1, $2}' file.txt`	右对齐列
`awk '{printf "%.2f\n", $1}' file.txt`	格式化数字（2位小数）
`awk 'BEGIN{OFS=","} {print $1,$2}' file.txt`	设置输出分隔符为逗号
`awk 'BEGIN{ORS="\r\n"} {print $0}' file.txt`	设置输出记录分隔符（Windows换行）

6. 内置变量

变量	说明
`NR`	当前记录号（行号，跨文件累计）
`NF`	当前记录中的字段数量
`FNR`	当前文件中的记录号（每个文件重置）
`FS`	输入字段分隔符（默认为空白字符）
`RS`	输入记录分隔符（默认为换行符）
`OFS`	输出字段分隔符（默认为空格）
`ORS`	输出记录分隔符（默认为换行符）
`FILENAME`	当前输入文件的名称
`$0`	当前记录的完整内容
`$NF`	当前记录的最后一个字段
`$(NF-1)`	当前记录的倒数第二个字段

7. 字符串函数

函数	说明与示例
`length(s)`	返回字符串长度
`substr(s, start, n)`	提取子串
`split(s, arr, sep)`	分割字符串到数组
`sub(regex, repl, s)`	替换第一个匹配
`gsub(regex, repl, s)`	替换所有匹配
`index(s, t)`	查找子串位置
`match(s, regex)`	匹配正则表达式
`tolower(s)`	转换为小写
`toupper(s)`	转换为大写

8. 数组操作

awk的数组是关联数组（键可以是字符串）：

语法	说明
`arr[key] = val`	赋值
`arr[key]`	访问元素
`for (k in arr) { ... }`	遍历所有键
`if (key in arr) { ... }`	检查键是否存在
`delete arr[key]`	删除元素
`delete arr`	删除整个数组

示例：

# 统计字段出现次数
awk '{count[$1]++} END {for (word in count) print word, count[word]}' file.txt

# 去重（保留首次出现顺序）
awk '!seen[$0]++' file.txt

9. 控制流语句

语法	说明
`if (cond) { ... }`	条件判断
`if (cond) { ... } else { ... }`	if-else分支
`for (i=1; i<=n; i++) { ... }`	C风格for循环
`for (k in arr) { ... }`	遍历数组
`while (cond) { ... }`	while循环
`do { ... } while (cond)`	do-while循环
`next`	跳过当前记录，处理下一行
`exit`	停止处理，执行END块

10. 实用组合模式

命令	说明
`awk -F: '{print $1}' /etc/passwd \| sort`	提取用户名并排序
`ps aux \| awk '$3 > 50 {print $2, $3, $11}'`	列出CPU使用率超过50%的进程
`df -h \| awk 'NR>1 {print $5, $6}' \| sed 's/%//'`	提取磁盘使用百分比和挂载点
`awk '{print NF, $0}' file.txt \| sort -rn \| head`	找出字段数最多的行
`awk '!seen[$0]++' file.txt`	去除重复行（保留顺序）
`awk '{a[i++]=$0} END {for(j=i-1; j>=0; j--) print a[j]}' file.txt`	反转文件行序
`awk -v name="root" '$1 == name {print}' /etc/passwd`	使用外部变量
`awk '{if(NR==1) print "Header"; print}' file.txt`	添加表头

11. 常用选项速查

选项	完整名称	说明
`-F`	--field-separator	设置输入字段分隔符
`-v`	--assign	设置变量（`-v var=value`）
`-f`	--file	从文件读取awk程序
`-e`	--source	直接指定awk程序源码
`-E`	--exec	从文件读取，禁用命令行选项解析
`-b`	--characters-as-bytes	按字节处理（而非字符）
`-W interactive`	-	交互模式（刷新输出）
`--posix`	-	POSIX兼容模式
`--dump-variables`	-	打印全局变量列表
`--profile`	-	分析awk程序性能

12. awk vs sed vs cut 对比

命令	适用场景	特点
`awk`	结构化文本处理、数据统计	字段处理、算术运算、关联数组
`sed`	文本替换、流编辑	正则替换、行删除/插入
`cut`	简单字段提取	快速按分隔符切分字段
`grep`	模式匹配、行过滤	正则搜索、行输出

13. 故障排查

问题	解决方法
字段分隔符不生效	确认分隔符是否正确（Tab用`\t`表示）；使用`-F`或`FS`
print输出无内容	检查字段编号（`$1`、`$2`等）；确认字段确实存在
数字比较不工作	确保字段是数字（非数字可能被当作0）；使用`$1+0`强制转换
BEGIN/END块不执行	BEGIN在处理文件前执行，END在文件处理完后执行；无文件时可能不执行END
数组遍历顺序不可控	awk数组遍历是无序的；如需排序，先用`asort()`或管道到`sort`
大文件处理慢	减少每行处理复杂度；使用更简单的工具如cut/grep
printf格式错误	确保格式符与参数数量匹配；检查转义字符
正则表达式不匹配	使用`$0 ~ /pattern/`显式匹配；检查正则语法

温馨提示： awk是文本处理的瑞士军刀。建议掌握以下模式：1）awk '{print $NF}'提取最后一列；2）awk '!seen[$0]++'去重；3）awk '{sum+=$1} END {print sum}'求和；4）awk -F: '$3>=1000 {print $1}' /etc/passwd查找普通用户；5）awk 'NR%2==0'打印偶数行。学习awk的最佳方式是先从简单的单行命令开始，逐步加入条件判断和循环。对于复杂的数据处理任务，可以将awk脚本写入.awk文件，使用-f执行。在大型日志分析场景中，awk经常与sort、uniq、grep等工具配合使用，形成强大的数据处理管道。

本文PDF格式下载：

关注公众号（haopython），请回复： LTAWK

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

Linux命令每日一清单039:awk--文本处理命令速查表

1. 基本用法

2. 字段分隔符

3. 模式匹配

4. 计算与统计

5. 输出格式化

6. 内置变量

7. 字符串函数

8. 数组操作

9. 控制流语句

10. 实用组合模式

11. 常用选项速查

12. awk vs sed vs cut 对比

13. 故障排查

最新文章

热门文章

随机文章

Linux命令每日一清单039:awk--文本处理命令速查表

1. 基本用法

2. 字段分隔符

3. 模式匹配

4. 计算与统计

5. 输出格式化

6. 内置变量

7. 字符串函数

8. 数组操作

9. 控制流语句

10. 实用组合模式

11. 常用选项速查

12. awk vs sed vs cut 对比

13. 故障排查

中职 Python 教学解惑:round (2.675,2)≠2.68?理解 + 答题双指南

PHP 8.x 新特性完全指南,我把每个版本的变化都整理好了

最新文章

热门文章

随机文章