在第五章的结尾,我们给出了一个练习,是想实现一个工具包,包含两个模块,一个是验证模块,可以用来验证手机、邮箱是否合法。还有一个模块是读取文件中的数据,比如可以读取txt,csv文件。
下面我们就开始着手实现。我准备用Poetry来管理我们的项目。
首先,我们打开VSCode,切换到你创建的一个工作目录(也就是你在某个磁盘下存放工程的文件夹),然后打开TERMINAL终端,终端会自动在当前的工作目录下,接下来我们就可以使用Poetry的命令创建一个项目,名为tools,命令为:poetry new tools。这样就会自动产生一个tools文件夹,它的目录结构是这样的:
tools├── pyproject.toml├── README.md├── src│ └── tools│ └── __init__.py└── tests └── __init__.py我们在src/tools文件夹下创建两个Python文件,一个是validator.py,一个是file_reader.py。
在validator模块中我想实现以下几个功能:
在file_reader模块中我想实现这么几个功能:
在validator.py中我写下了这样的代码:
import refrom urllib.parse import urlparsedef is_valid_phone_num(number: str) -> bool: """ 验证手机号 :param number: 手机号 :type number: str :return: 有效返回True,否则返回False :rtype: bool """ # 使用正则表达式验证,以1开头,第二位是3-9之间的数字,后面是0-9的9个数字 pattern = re.compile(r"1[3-9]\d{9}") return bool(re.fullmatch(pattern, number))def is_valid_email(email: str) -> bool: """ 验证邮箱格式 :param email: 邮箱地址 :type email: str :return: 有效返回True,否则返回False :rtype: bool """ # 正则表达式挺复杂的,这是从网上查找的 pattern = r"^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$" return bool(re.match(pattern, email))def is_valid_url(url: str) -> bool: """ 验证url,支持http和https :param url: url地址 :type url: str :return: 有效返回True,否则返回False :rtype: bool """ if not url or url.strip() == "": return False url = url.strip() # 必须以http://或https://开头 # 下面多个相邻的字符串会被自动拼接成一个 pattern = re.compile( r"^https?:\/\/" # 强制http/https开头 r"(?:(?:[a-zA-Z0-9-]+\.)+[a-zA-Z]{2,}|(?:\d{1,3}\.){3}\d{1,3})" # 域名或IP r"(?::\d{1,5})?" # 可选端口(1-5位数字) r"(?:\/[^\s]*)?$", # 可选路径/参数 re.IGNORECASE, ) if not re.match(pattern, url): return False # 做一些更细节的判断 try: parsed_url = urlparse(url) port = parsed_url.port # 端口号范围在0-65535 if port is not None and (port < 0 or port > 65535): return False # 如果是IP地址,则每个数字都应该在0-255范围 hostname = parsed_url.hostname if hostname is None: return False if hostname.replace(".", "").isdigit(): ip_parts = hostname.split(".") if len(ip_parts) != 4: return False for part in ip_parts: if not part.isdigit() or int(part) < 0 or int(part) > 255: return False except (ValueError, TypeError, AttributeError): return False return True在file_reader.py中我是这么写的:
from pathlib import Pathimport csvimport jsondef read_txt(file_path: str, encoding: str) -> list: """ 读取txt文件 :param file_path: txt文件路径 :type file_path: str :param encoding: 编码格式 :type encoding: str :return: 文件每行的内容 :rtype: list """ path = Path(file_path) return path.read_text(encoding).splitlines()def read_csv(file_path: str, encoding: str, delimiter: str = ',') -> list: """ 读取csv文件 :param file_path: csv文件路径 :type file_path: str :param encoding: 编码格式 :type encoding: str :return: 文件的每行内容 :rtype: list """ data = [] with open(file_path, "r", encoding=encoding) as f: reader = csv.reader(f, delimiter=delimiter) for row in reader: if row: # 过滤掉空行 cleaned_row = [cell.strip() for cell in row] data.append(cleaned_row) return datadef read_json(file_path: str, encoding: str) -> dict | list: """ 读取json文件 :param file_path: json文件路径 :type file_path: str :param encoding: 文件编码格式 :type encoding: str :return: 返回字典或列表 :rtype: dict | list """ with open(file_path, "r", encoding=encoding) as f: return json.load(f)if __name__ == "__main__": csv_path = 'H:\\py_workspace\\tools\\tests\\data\\test.csv' data = read_csv(csv_path, 'utf-8') print(data)写完了上面两个模块的代码,接下来就要进行测试,看看功能是否如预期执行,所以我们需要先安装一个测试框架的库,这里使用pytest,在控制台中执行如下命令:
# 添加 pytest 作为开发依赖poetry add --group dev pytest# pytest-cov 用于生成测试覆盖率报告poetry add --group dev pytest-cov我们可以在tests目录中创建两个测试文件,test_validator.py和test_file_reader.py。
为了能够正常使用src中的模块导入,我们需要先在项目的根目录下执行poetry install命令,这就相当于把src下的模块安装到了虚拟环境中,而且是可编辑的模式,也就是如果修改了源代码,会自动使用最新的代码。
在VSCode中我执行了poetry install命令之后,在测试文件中导入模块后,我还遇到了点小问题,就是编辑器不能代码的自动补全了,我猜测可能是因为编辑器还没识别到,实际上已经安装成功了,这一点可以通过poetry run pip list命令来验证,安装成功可以在这个列表中看到我们自己编写模块的名称,我重启了一下VSCode之后,自动补全就可以用了。
还有一点是导入模块的时候不要忘记了包名(tools),不带包名直接导入会找不到模块的。
一切正常后就可以写测试脚本了。
test_validator.py的代码如下:
from tools.validator import is_valid_phone_num, is_valid_email, is_valid_urldef test_valid_phone_num(): """ 测试test_valid_phone_num 手机号都是瞎写的,如有雷同,纯属巧合 """ assert is_valid_phone_num('19811234567') is True assert is_valid_phone_num('19912345678') is True assert is_valid_phone_num('19912345678abc') is False assert is_valid_phone_num('123456789') is Falsedef test_valid_email(): """ 测试test_valid_email """ assert is_valid_email('test@example.com') is True assert is_valid_email('test.123@163.com') is True assert is_valid_email('test@@example.qq.com') is False assert is_valid_email('@example.com') is False assert is_valid_email('123456') is Falsedef test_valid_url(): """ 测试test_valid_url """ assert is_valid_url('https://www.example.com') is True assert is_valid_url('http://127.0.0.1:8080/api') is True assert is_valid_url('https://example.com:88888') is False # 端口号超过65535 assert is_valid_url('ftp://example.com') is False # 端口号超过65535 assert is_valid_url('http://256.0.0.1') is False # ip超过255 assert is_valid_url('ftp://example.com') is False # 不是http和https在测试file_reader模块之前我们我们需要先准备一些测试数据,我们在tests目录下创建一个data文件夹,并在里面放一些简单的数据,分别是test.txt,test.csv,test.json。具体的数据如下:
test.txt的数据内容:
Python从入门到实战工具包测试验证模块:手机号、邮箱、URL文件读取模块:TXT、CSV、JSONtest.csv的数据内容如下:
姓名,邮箱,网址未来编程实验室,futurecodinglab@126.com,没有网址张三,zhangsan@example.com,https://www.zhangsan.com李四,lisi@example.com,http://127.0.0.1:8080王五,invalid-email,ftp://invalid-urltest.json的数据如下:
{ "name": "tools", "version": "0.1.0", "features": ["验证", "文件读取"], "author": { "name": "未来编程实验室", "email": "futurecodinglab@126.com" }}test_file_reader.py的代码如下:
import osfrom tools.file_reader import read_txt, read_csv,read_jsonTEST_DATA_DIR = os.path.join(os.path.dirname(__file__), "data")TXT_FILE = os.path.join(TEST_DATA_DIR, "test.txt")CSV_FILE = os.path.join(TEST_DATA_DIR, "test.csv")JSON_FILE = os.path.join(TEST_DATA_DIR, "test.json")def test_read_txt(): """ 测试test_read_txt """ lines = read_txt(TXT_FILE, 'utf-8') assert len(lines) == 4 assert lines[0] == 'Python从入门到实战' assert lines[2] == '验证模块:手机号、邮箱、URL'def test_read_csv(): """ 测试test_read_csv """ data = read_csv(CSV_FILE, 'utf-8') assert data[0][0] == '姓名' assert data[1][0] == '未来编程实验室'def test_read_json(): """ 测试test_read_json """ data = read_json(JSON_FILE, 'utf-8') assert data['name'] == 'tools'因为我们在这个示例中使用的是pytest测试框架,所以在编写测试脚本时要符合一些基本的规范,比如测试的py文件要以test_开头或_test结尾,测试脚本中的函数要以test_开头,用assert关键字来断言测试是否符合预期。
到目前为止,按照我们的设想代码基本上写完了,项目目前的组织结构如下:
tools├── pyproject.toml├── README.md├── src│ └── tools│ ├── validator.py│ ├── file_reader.py│ └── __init__.py└── tests│ ├── test_validator.py│ ├── test_file_reader.py └── __init__.py写完测试代码之后,我们就可以在控制台中执行测试脚本了,目录要切换到tools根目录,然后执行poetry run pytest即可运行全部的测试。
执行poetry run pytest --cov tools tests/命令在控制台中会打印出代码被测试的覆盖率,这有助于我们发现有多少代码被测试了,这有助于评估测试的质量。
但也需要注意的是高覆盖率并不代表着高质量,因为有可能存在假覆盖的情况,比如虽然执行了代码但没有验证结果。
在编写代码的过程中经常会出现各种问题,为了更方便的解决这些问题,我们则需要掌握一些调试技巧,断点调试可以说一种非常常用的技巧。
以本练习为例,我们在这里简单说一下在VSCode中如何进行断点调试Python项目。
首先看一下我们的tools根目录是否有一个.vscode的文件夹,项目如果有运行一般会自动创建,如果没有则创建一个,并在这个文件夹中创建一个launch.json文件,在这个配置文件中写如下配置:
{ "version": "0.2.0", "configurations": [ { "name": "Debug PyTest", "type": "debugpy", "request": "launch", "module": "pytest", "args": ["tests/", "-v"], "console": "integratedTerminal", "justMyCode":false, "env": { "PYTHONPATH": "${workspaceFolder}" } }, { "name": "Debugger Main: Current File", "type": "debugpy", "request": "launch", "program": "${file}", "console": "integratedTerminal", "justMyCode":false, "env": { "PYTHONPATH": "${workspaceFolder}" }, "args": [] } ]}这个配置中第一个“Debug PyTest”是为了让我们可以在运行tests的脚本时进入断点调试模式,“Debugger Main: Current File”的配置是为了让我们可以在src中的Python文件执行断点调试,这个我们可以在VSCode中的点击左侧的Run and Debug按钮进入,然后在下拉框中可以选择调试时执行哪种类型的调试。具体如图:

validator.py和file_reader.py模块的实现都是用的基础库,写的也都是比较简单的代码,可以算是自己造轮子,在学习的过程中我认为还是有必要的。
实际开发中为了提升效率和更加完善,我们可以使用一些比较流行的第三方库,比如phonenumbers、email-validator、validators、pandas等。
你在练习时遇到了哪些问题?我们可以一起来讨论。