文件操作是编程中基础且比较核心的内容,我们在前面的章节中其实已经有所涉猎,但都是浅尝辄止,本章将更加详细和系统的聊聊文件操作相关的内容。
读取一个文件的一般步骤是:打开文件->读取内容->关闭文件,用代码实现是这样的:
f = open(file_path, mode='r', encoding='utf-8')content = f.read()print(content)f.close()上面的代码中,open()函数用于打开文件,read()方法用于读取文件内容,close()方法是释放资源。
但手动写close()容易被遗漏,而且如果在读取过程中代码出现了错误,close()方法很可能执行不到,这就导致资源无法释放,为此,Python提供了with上下文管理器,它会自动调用close()方法,即使读取文件过程出现错误,也能够释放资源,代码也更简洁。
使用with来实现文件读取是这样的:
with open(file_path, mode='r', encoding='utf-8') as f: content = f.read() print(content)你可能已经注意到了open()方法中的三个参数,接下来我们一一解释,其中:
file_path:文件路径,可以是绝对路径,也可以是相对路径mode:打开模式,它决定的是文件的操作权限。我们上面的例子写的是r,这也是默认值,表示只读,它是read的简写。使用r模式典型用途就是读取文件,无法写入内容。除了r模式之外,还有一些其他的参数,比如:w:表示只写模式,它是write的简写,用于新建文件或写入数据。
a:表示追加模式,它是append的简写,用于将写入的内容追加到最后。
b:表示二进制模式,用于处理图片、视频等二进制文件,它也可以配合基础模式使用,比如rb(二进制只读)、wb(二进制只写)、ab(二进制追加)。
x:表示独占创建并写入,它是eXclusive creation的简写,用于防止覆盖已有文件。
t:表示文本模式,它是text的简写,也是默认模式,其实r、w、a默认情况下处理的都是文本,也就是相当于rt、wt、at。
+:表示将一种模式升级为读写模式,它不能单独使用,要和基本模式配合,比如r+、w+、a+。
r,w,a是三个基础模式,也是最常用的模式,在基础模式中加上+号,也就是r+、w+、a+等就具备了可读可写的混合权限。
对于mode中的一些模式参数,我刚开始有一些困惑,看看你是否也遇到了类似的问题。因为有+模式的加持,一些基本模式操作的权限就提高了,比如r本身只有读的能力,r+则具备了读写的能力。
那这和w模式有啥区别?w模式也可以写入啊,实际上它们之间还是有些区别的,r+有了写的能力之后,可以结合seek()方法,移动指针位置,做到局部修改文件,w模式虽然可以写入文件,但它的写入能力比较霸道,它会先清空整个文件,无法结合seek()做到修改局部文件,是不是用rw模式就可以了?很可惜,Python中rw模式是不合法的,其实r+就相当于rw。
w+则是扩展了读的能力,我们要清楚的是+是一种升级和扩展,它前面的模式是根基,也就是说w+,还是先以w模式为基础,还是会先清空文件,然后再写入内容,但它这个时候可以读取文件内容了,读取文件的过程中要记得使用seek(0)将指针重置到开始的位置,因为写完指针就在末尾了,直接读是没有任何内容的。
所以即便w+有了读的能力,看似和r+能力相同,但还是有区别的,因为w+会先做清空的操作,即便你开始就读取内容,也只会读取到空内容。这种模式比较适用于写入文件后再读取内容进行验证的场景。
a+是保留了追加的能力,又新增了读取的能力。这样看起来r+似乎也具备了a+的能力了,在文件存在时r+的确可以结合seek()调整指针位置来实现尾部追加内容的效果,但如果文件不存在则会报FileNotFoundError异常。总的来说,a+适用于追加后再读取内容的场景。
x+是扩展了读的能力,它适用于必须创建一个新的文件,不允许覆盖已有文件,并且需要验证写入的内容的场景。
mode的参数是可以组合的,但也有一定的规律,不是任意组合,r/w/a/x这四个属于基础模式,b/t属于数据类型,+属于扩展符,我们的组合可以这么选:先选一个基础模式,再选一个数据类型,最后选扩展符,这样一般都是可行的。
open()函数并不是只有这三个参数,只是这三个参数比较常用,其余参数若你有兴趣可以查阅相关资料。
为了便于解释后面的代码,我们先来创建一个工程,大致的步骤是这样:打开VSCode,然后选择一个工作目录,在控制台中使用uv命令创建一个ch9的项目,启用虚拟环境,之后我们就可以在这个目录中创建py文件写代码了。如果有点忘记了,可以回看一下第五章模块与包。
我们在ch9目录下创建一个test.txt测试文件,在这个文件中写如下内容:
未来编程实验室《Python从入门到实战》Practice makes perfect.读取这个文件的内容,我们先在ch9项目下创建一个example.py的文件,代码可以这么写:
with open('test.txt', mode='r', encoding='utf-8') as f: content = f.read() print(content)我们用with来自动管理文件对象的生命周期,as f是将open()函数返回的对象起一个别名,也就是变量,叫f,你可以任意起名。
as这个关键字的核心用途就是起别名,这个我们在之前聊模块导入、异常的时候都见过。
open()方法中我们使用的是文件的相对路径,因为example.py和test.txt在同级目录,直接用相对路径即可。mode我们用的是r只读模式,encoding我们用utf-8。
read()方法是帮我们读取文件的内容,它适合一次性读取文件中所有的内容。它还有一个可选参数size,用于指定读取的字符或字节数,比如我们指定读取7个字符:
with open('test.txt', mode='r', encoding='utf-8') as f: content = f.read(7) print(content) # 输出:未来编程实验室如果我们想逐行读取内容,可以使用readline()方法:
with open('test.txt', mode='r', encoding='utf-8') as f: line = f.readline() while line: print(line.strip()) line = f.readline()这样我们就可以遍历每一行,并对每一行做处理。
说到遍历,其实Python中文件本身是可以直接迭代的,代码也非常的简洁,也是Python中比较经典的写法:
with open('test.txt', mode='r', encoding='utf-8') as f: for line in f: print(line.strip())与readline()相似的有一个方法是readlines(),它是读取所有行,功能和read()方法相似,都是读取文件的所有内容,但read()返回的结果是字符串类型,而readlines()返回的结果是列表,列表中的每个元素对应的是文件中的一行。
向文件中写入内容用write()方法,比如我们往一个新的test2.txt文件中写入一句话:
with open('test1.txt', mode='w', encoding='utf-8') as f: f.write("未来编程实验室")它会在执行脚本的同级目录下创建一个新的文件,打开可以看到写入的内容。当然mode是w,文件是否存在并不影响写入。
如果想一次性写入多行内容,可以用writelines()方法:
lines = ['未来编程实验室', '《Python从入门到实战》', 'Practice makes perfect.']with open('test1.txt', mode='w', encoding='utf-8') as f: f.writelines(lines)但有一点是需要注意的,多行写入它是不会自动换行的,需要我们主动处理。
文件指针可以理解为我们平时看到的文件中闪烁的那个光标,它标记的是下一次文件操作开始的位置。其实我们在做文件读取的时候文件指针也隐藏其中,这个时候指针的位置在开头,也就是位置0。
我们先来看一段程序:
with open('test1.txt', mode='w+', encoding='utf-8') as f: f.write('《Python从入门到实战》') content = f.read() print(content)上面这段程序会输出什么?
答案是空白。为什么呢?
因为写入内容后文件指针会停留在内容的末尾,我们可以用tell()方法来查看当前指针的位置,使用seek()方法将指针位置移动到指定的位置,从而实现内容读取:
with open('test1.txt', mode='w+', encoding='utf-8') as f: f.write('《Python从入门到实战》') print(f.tell()) # 输出:30 f.seek(0) content = f.read() print(content) # 输出:《Python从入门到实战》我们写入的“《Python从入门到实战》”这句话实际上只有14个字符,但是tell()方法返回的结果是30,这是因为它返回的是字节数而不是字符数,在UTF-8编码下,英文字符占一个字节,而中文字符通常占3个字节,是这样计算出来的:1 * 3 + 6 * 1 + 7 * 3 = 30。
seek(offset, whence)方法有两个参数,offset是偏移量,正数是往后移,负数是往前移,单位是字节。whence是基准位置,它决定了从哪开始计算偏移,有三个可选值,0表示文件开头,可以用os.SEEK_SET常量代替;1表示当前指针位置,可以用os.SEEK_CUR常量代替;2表示文件末尾,可以用os.SEEK_END常量代替。
文件指针在文件随机访问和修改、大文件处理与断点续传、二进制文件解析等场景下非常有用武之地。
使用open()函数再结合文件对象中的read()和write()相关的方法能够让我们完成对文件的读写,但对于特定的格式我们需要做一些手动处理,多数情况下我们并不需要重复造轮子,Python中内置了一些模块帮助我们处理常见的一些文件格式,比如csv、JSON等。
读写csv首先要导入csv模块,然后利用读和写对象去操作即可。比如我现在想把下面一段内容写入csv:
name,age,city张三,26,北京李四,30,深圳使用内置的csv模块可以这么写:
import csvwith open('data.csv', mode='w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['name', 'age', 'city']) writer.writerows([['张三', 26, '北京'], ['李四', 30, '深圳']])我们创建了writer对象之后,先用writerrow()方法写入表头,然后再用writerows()方法写入多行数据。
有一点需要注意:在Windows环境下需要设置一下newline,否则写入的csv内容会出现每行之间都多一个空行。
如果我们写入的数据是字典格式的,可以用DictWriter对象来写入:
import csvfields = ['name', 'age', 'city']data = [ {'name': '张三', 'age': 20, 'city': '北京'}, {'name': '李四', 'age': 30, 'city': '深圳'},]with open('data.csv', mode='w', newline='', encoding='utf-8') as f: writer = csv.DictWriter(f, fields) writer.writeheader() writer.writerows(data)写入csv完成后,我们就可以实现一下读取csv的代码,读取csv也有几种方法,一种是不考虑表头,直接读取数据:
import csvwith open('data.csv', mode='r', encoding='utf-8') as f: reader = csv.reader(f) for row in reader: print(row)还有一种方法是利用next()函数跳过表头:
import csvwith open('data.csv', mode='r', encoding='utf-8') as f: reader = csv.reader(f) next(reader) # 跳过表头 for row in reader: print(row)如果你想跳过多行,多用几次next()函数就可以了。当然,如果你想按照表头的列名来取值,csv模块中也有提供处理方法,那就是DictReader,可以这么做:
import csvwith open('data.csv', mode='r', encoding='utf-8') as f: reader = csv.DictReader(f) for row in reader: name = row['name'] age = row['age'] city = row['city'] print(f"{name},{age},{city}")JSON也是一种常见的数据格式,Python中也内置了处理JSON的模块。比如现在有这么一段JSON数据要写入文件:
{ "name": "张三", "age": 20, "city": "北京"}使用内置的json模块,代码可以这么写:
import jsondata = { "name": "张三", "age": 20, "city": "北京"}with open('data.json', mode='w', encoding='utf-8') as f: json.dump(data, f, ensure_ascii=False, indent=4)我们用json模块中的dump()方法实现JSON数据写入,这里用到了4个参数,第一个参数是要写入的JSON数据;第二个参数是文件对象;第三个参数ensure_ascii是控制编码的展示,它的默认值是True,对于中文如果不设置为False,我们看到的内容会被转义,也就是会看到\uXXXX形式的Unicode转义字符;第四个参数indent是控制写入的内容是否格式化,也就是美化输出,指定的是空格缩进,如果不设置写入的内容都会在一行,对阅读不友好,如果只是为了数据传输,不设置可以减少文件体积。
成功将JSON数据写入后,我们可以尝试一下读取JSON文件:
import jsonwith open('data.json', mode='r', encoding='utf-8') as f: data = json.load(f) print(data) print(data['name'])我们用json模块中的load()方法来加载JSON文件,然后使用[]取指定字段的值。
如果你动手写上面的程序,在编写的过程中可能发现,json模块中有dump()和dumps()方法,还有load()和loads()方法,这两对方法看起来很相似,我们来具体看看它们的区别。
dump()和dumps()方法其实都是写入,只是写入的目标不同,dump()方法是将JSON写入到文件,而dumps()是将JSON转换到字符串,多出的这个s我们可以理解为字符串(string)。
我们来看一下将JSON数据写入(转换)到字符串中:
import jsondata = { "name": "张三", "age": 20, "city": "北京"}json_str = json.dumps(data, ensure_ascii=False)print(json_str)load()和loads()方法也类似,loads()方法多了一个s,意思也是解析JSON字符串,我们来看一下它解析JSON字符串:
import jsonjson_str = '{"name": "张三", "age": 20, "city": "北京"}'data = json.loads(json_str)print(type(data)) # 输出:<class 'dict'>print(data['name']) # 输出:张三loads()方法加载了JSON字符串,是将其转换为字典对象,我们可以从上面的类型输出中看出。
Python中除了内置csv和JSON文件的读写模块,还有xml的xml.etree.ElementTree模块、压缩文件的zipfile模块等,这里我们就不再详细介绍,需要时可以查阅相关资料,我们也可以尝试一些比较流行和优秀的第三方模块,比如pandas、openpyxl、pillow、lxml等。
在日常的开发中,我们有时候会遇到处理大文件的情况,内存不足时,一次性都加载到内存中程序就崩溃了,所以我们必须采用一些策略来处理大文件,比如对于普通的文本文件我们可以用open()函数返回的可迭代对象逐行读取,这样内存占用就会很小,不会受文件大小的影响;对于二进制文件或者不希望分行的文件,我们可以采用分块读取的方式;我们也可以将大文件读取的逻辑封装成生成器来降低内存占用;Python中还提供了超高性能读取的mmap模块,它将文件直接映射到内存地址空间,适合随机读取或修改,尤其适合二进制文件;我们也可以考虑将大的数据存入到数据库,建立索引,方便我们高效查询;实在不行,我们还可以通过使用进度条来优化体验。
总的来说,处理大文件,核心思路就是化整为零,把大文件拆成小片段,再逐个处理。
掌握文件读写是我们操作文件的基础,但这还不够,日常开发中我们还会和创建文件或目录、删除文件或目录、复制文件或目录等操作打交道,Python中的os模块、pathlib模块、shutil模块可以帮助我们解决这类问题。
pathlib模块是Python 3.4加入的,在文件处理方面基本都能替代os.path,也是Python3中比较推荐用的。
接下来,我们逐步来看一下这三个模块中关于文件操作比较常用的一些方法。
比如,我现在想获取当前的工作目录,可以用os模块中的getcwd()方法:
import osprint(os.getcwd()) # 输出:D:\python_workspace\ch9使用pathlib模块也有对应的实现:
from pathlib import Pathprint(Path.cwd()) # 输出:D:\python_workspace\ch9我在当前工作目录(ch9)下创建一个test1.txt文件,并在其中写下了下面的内容:
《Python从入门到实战》未来编程实验室Practice makes perfect.我想通过程序读取这个文件的内容,一种方法是用相对路径就可以实现,如果我想使用绝对路径读取,就可以利用先获取当前路径,再拼接文件的方法来做,可以这么做:
import oscwd = os.getcwd()file_path = os.path.join(cwd, 'test1.txt')with open(file_path, mode='r', encoding='utf-8') as f: content = f.read() print(content)我们也可以使用pathlib来拼接路径:
from pathlib import Pathfile_path = Path.cwd() / "test1.txt"content = file_path.read_text(encoding='utf-8')print(content)我们使用了Path对象中的read_text()读取文本内容,它还有一个read_bytes()方法用于读取二进制数据。
使用Python中提供的方法拼接路径比我们直接手动去拼接路径更好,一个明显的好处是自动适配跨平台,因为不同的操作系统路径分隔符是有区别。
如果我们想在当前路径下创建一个files目录,用os模块可以这么做:
import osos.mkdir('files')但这个代码只能执行一次,第二次执行控制台就会输出FileExistsError异常,告诉我们文件已存在,无法创建,所以我们在创建文件的时候,可以先检查是否存在:
import osif not os.path.exists('files'): os.mkdir('files')使用pathlib模块可以做同样的实现:
from pathlib import PathPath('files').mkdir(exist_ok=True)使用pathlib模块中的Path对象创建目录时,可以不使用if语句做文件是否存在的判断,因为它的mkdir()方法中有一个exist_ok参数,设置为True即表示存在时不报错。
有时候我们需要创建多级目录,在os模块中提供了一个makedirs()方法,我们可以这么实现:
import osos.makedirs('files/level1/level2', exist_ok=True)makedirs()方法中也有一个exist_ok参数,设置为True表示目录存在时不报错,这是比较推荐的做法。
使用pathlib也可以轻松实现创建多级目录:
from pathlib import PathPath("files/level1/level2").mkdir(parents=True, exist_ok=True)我们发现使用pathlib模块创建多级目录的方法和创建单个目录是一样的,只是参数稍有不同,我们需要设置parents=True,这样做能够保证即便父目录不存在也不会报错。
创建文件夹时,我们也可以创建文件,比如我现在想在files/level1/level2目录下创建一个test.txt的文件,用pathlib模块实现可以这么做:
from pathlib import Pathfile_path = Path("files/level1/level2/test.txt")# 先创建多级目录file_path.parent.mkdir(parents=True, exist_ok=True)# 再创建文件file_path.touch(exist_ok=True)使用touch()方法创建的是空白文件,它的exist_ok=True参数表示如果文件已存在则不修改。如果我们想在创建文件的时候还要写入内容,就可以使用Path对象写入相关的方法:
from pathlib import Pathfile_path = Path("files/level1/level2/test.txt")# 先创建多级目录file_path.parent.mkdir(parents=True, exist_ok=True)# 再创建文件,并写入内容file_path.write_text("《Python从入门到实战》\n未来编程实验室", encoding='utf-8')# 验证写入的内容print(file_path.read_text(encoding='utf-8'))write_text()方法是写入文本数据,Path对象还有一个write_bytes()方法,是写入二进制数据。
现在ch9是我们的工作目录,我们逐级点开可以看到files目录(文件夹),可以看到level1目录,level2目录,最后是test.txt文件,打开它还可以看到里面的内容。
现在我想将level2目录(包括test.txt文件)复制到当前工作目录target目录下,我们可以使用pathlib模块结合shutil模块来实现:
from pathlib import Pathimport shutilsrc = Path("files/level1")target = Path("target")shutil.copytree(src, target)执行上面的代码,我们就可以在target目录下看到level2目录,以及它下面的test.txt文件。
但如果我再次运行这段代码就会出现FileExistsError异常,因为target目录已经存在了,想避免这个问题,可以使用copytree()函数的另一个参数dirs_exist_ok=True,这样目录或文件存在也不会报错。
如果我们只是想复制单独的文件,shutil模块中也提供了复制方法copy2(),比如我现在想把files/level1/level2/test.txt这个文件复制到target目录下,可以这么做:
from pathlib import Pathimport shutilsrc = Path("files/level1/level2/test.txt")target = Path("target/test.txt")target.parent.mkdir(parents=True, exist_ok=True)shutil.copy2(src, target)除了copy2()方法,shutil模块中还有两个可以实现复制文件的方法,copy()和copyfile(),它们与copy2()有些差异。
copy2()方法是和系统复制粘贴行为接近的,它不仅复制文件的内容,还会复制文件的元数据(创建时间、修改时间、权限等),但copy()方法是复制内容和文件权限,不保留创建时间、修改时间这些元数据,copyfile()则更轻量化,只复制内容。
对于多数情况下,copy2()方法是首选,当然如果想更轻量化的复制,可以考虑copy()和copyfile()方法。
目前,在target目录下有一个test.txt文件,我现在有了一个新的想法,想将test.txt改名为new_test.txt,这个操作shutil模块也可以满足,使用move()方法:
from pathlib import Pathimport shutilsrc = Path("target/test.txt")target = Path("target/new_test.txt")shutil.move(src, target)move()方法其实不仅仅可以重命名文件,还可以移动目录,比如我现在想把files/level1目录下的level2目录移动到target目录下,可以这么做:
from pathlib import Pathimport shutilsrc = Path("files/level1/level2")target = Path("target")shutil.move(src, target)move()方法同样可以实现文件的移动,只不过我们在写原文件路径时要写到具体的文件。
经过我们上面代码的执行,现在target目录中包含的既有文件又有目录,如果我想获取target目录下的所有的txt文件就需要遍历target目录,遍历目录在Python中也有很多方法,使用os模块中的listdir()、walk()方法都可以,pahtlib模块中也提供了一些遍历目录的方法。
我们这里以使用pathlib模块为例。如果要获取目录下所有的txt后缀的文件,那就需要递归目录,这样能够保证我们获取指定目录及子目录下的文件:
from pathlib import Pathfor txt in Path("target").glob("**/*.txt"): print(txt)我们使用了Path对象中的glob()方法,在这个方法中使用了通配符,这个通配符分三部分,第一部分的**表示匹配任意层级的目录,第二部分的/表示路径分隔符,第三部分的*.txt表示匹配所有.txt结尾的文件。
Path对象中还有一个rglob()方法也能达到同样的效果,不需要使用**通配符,只使用*.txt即可达到上面glob()方法中的效果。glob()方法如果第一部分不使用**它也只会遍历当前目录下的文件。
如果我们不需要获取target子目录的下的文件或目录,可以不使用递归的方法,这一点Path中的iterdir()方法可以做到,它会列出指定目录下所有的目录和文件。
如果需要遍历大量的文件,且对性能有要求,可以考虑使用os模块中的scandir()方法,这个方法是Python 3.5加入的。
到这一部分,target目录即将完它的使命了,我们将上面的例子都演示完就开始准备删掉这个目录了,对于目录的删除,os模块、pathlib模块、shutil模块都有支持。
os模块中有rmdir()方法,pathlib模块中也有一个rmdir()方法,shutil模块中是rmtree()方法,但shutil模块中的rmtree()方法不同于os、pathlib模块中的方法,前两个只能支持删除空目录,非空目录是会报错的,而rmtree()方法则可以删除非空目录。
我们来看一下使用os模块删除target目录如何做:
import osos.rmdir("target")使用pathlib模块实现,可以这么做:
from pathlib import PathPath("target").rmdir()os和pathlib模块删除target目录的代码都会出现OSError异常提示。对于这样的非空目录,我们就需要使用shutil模块中的rmtree()方法:
import shutilshutil.rmtree("target")如果只是删除空目录,还是更推荐使用前两个,为什么呢?
因为rmtree()虽然既可以删除空目录,也可以删除非空目录,功能强大,可以说是重型武器,删空目录有点大材小用,还有一点原因,也是非常重要的一点,os和pathlib模块中的rmdir()删除非空目录会报错,这其实是一种保护,避免我们误删数据,shutil中rmtree()方法可没有任何保护,第三点就是前两个更轻量,理论上讲会更快。
shutil这个名字看起来有点不好记,它实际上是Shell Utilities的简写,意思是Shell实用工具,这个模块的目标就是提供类Shell命令的文件操作能力。
上面我们在聊文件的读写,目录的创建、复制、移动、删除等的时候,其实都是在一切运行正常的情况下,实际开发中总会遇到各种操作异常的情况,常见的一些文件相关异常有:
比如我们现在读取一个不存在的文件:
with open('test3.txt', mode='r', encoding='utf-8') as f: content = f.read() print(content)test3.txt这个文件本身不存在,执行上面的代码就会出现:FileNotFoundError: [Errno 2] No such file or directory: 'test3.txt'的错误提示。
为了让我们的程序更健壮就需要增加异常处理,也就是使用try...except进行异常捕获和处理:
try: with open('test3.txt', mode='r', encoding='utf-8') as f: content = f.read() print(content)except FileNotFoundError: print("错误:文件未找到!")至此,本章的关于文件操作的相关内容已经聊完了,接下来是练习。希望你实现这样一个脚本:
1)在该脚本的同级目录自动创建一个exercise的目录。2)在exercise这个目录下创建10个空目录,再创建10个文件,其中前五个文件是txt文件,后五个文件是json文件,我们可以通过数字编号来命名这些目录和文件,在创建文件的时候,同时写入内容,写什么内容自己来定。3)将txt文件移动到和其编号相同的文件夹中,比如1.txt移动到目录1中,6.json移动到目录6中。4)遍历exercise目录,分别过滤出txt文件和json文件,输出它们的路径。5)删除exercise目录。
当然,如果你有自己的想法或问题要处理更好。