你是否曾为在海量文件(以法律文件为例)中寻找相关判例而头疼?传统的关键词搜索经常错过关键信息——毕竟法律文本的微妙之处往往不在于具体词汇,而在于概念之间的关系。
今天,我们就来聊聊如何用Python构建一个闪电般快速的法律文档语义搜索系统。我将带你从零开始,基于澳大利亚高等法院的14.3万份判例文档,构建一个能从毫秒级响应数千并发查询的智能检索系统。
法律文本有其独特之处:
传统的TF-IDF或BM25算法在这里显得力不从心。而向量搜索通过将文本转换为高维空间中的点,让相似的概念彼此靠近,从而实现了“理解语义”的检索。
但问题是:如何在保证检索质量的同时,处理如此大规模的数据?
在开始编码之前,有一个关键步骤大多数开发者都会忽略:仔细阅读嵌入API的服务条款。
当我用Claude帮我分析了几大主流嵌入服务提供商的服务条款后,发现了令人惊讶的差异:
| Isaacus | ||||
| OpenAI | ||||
| Voyage AI |
重要发现:如果你处理的是敏感的法律或医疗文档,有些提供商默认会使用你的数据进行模型训练,甚至可能将数据共享或出售给第三方。
这就是为什么我最终选择了Isaacus——不仅因为它的服务条款对用户数据保护最为友好,而且它的kanon-2-embedder模型在后续测试中展现出了出色的性能。
你可能会问:“为什么不直接在本地运行嵌入模型?” 这确实是一个选项,特别是对于敏感数据。
本地模型的优势:
但权衡点是质量和便利性:
对于这个项目,我同时测试了API方案和本地方案。本地模型使用的是我在澳大利亚法律语料上微调的BGE-small模型,虽然速度快,但384维的嵌入空间在语义丰富度上无法与API模型的1792-3072维相媲美。
处理14.3万个文本块,如果顺序处理将花费数小时。我们需要异步处理,但要谨慎避免触发API限流:
import asyncioimport numpy as npfrom isaacus import AsyncClientimport os# 设置并发批处理数限制max_concurrent_batches = 5semaphore = asyncio.Semaphore(max_concurrent_batches)asyncdefprocess_batch(batch_texts, client, model_name, task_type):"""处理单批文本的嵌入生成"""asyncwith semaphore: # 限流控制 response = await client.embed( model=model_name, inputs=batch_texts, task=task_type )return np.array(response.embeddings, dtype=np.float32)asyncdefgenerate_embeddings_batch(corpus_texts, queries):"""批量生成文档和查询的嵌入向量"""# 初始化客户端 client = AsyncClient(api_key=os.getenv("ISAACUS_API_KEY"))# 准备批处理 batch_size = 100# 根据API限制调整 corpus_batches = [corpus_texts[i:i+batch_size] for i in range(0, len(corpus_texts), batch_size)]# 并行处理文档嵌入 corpus_tasks = []for batch in corpus_batches: task = process_batch(batch, client, "kanon-2-embedder", "retrieval/document") corpus_tasks.append(task) corpus_results = await asyncio.gather(*corpus_tasks) corpus_embeddings = np.vstack(corpus_results)# 生成查询嵌入 query_response = await client.embed( model="kanon-2-embedder", inputs=queries, task="retrieval/query" ) query_embeddings = np.array(query_response.embeddings, dtype=np.float32)# 保存到本地 os.makedirs("embeddings", exist_ok=True) np.save("embeddings/corpus_embeddings.npy", corpus_embeddings) np.save("embeddings/query_embeddings.npy", query_embeddings)await client.close()return corpus_embeddings, query_embeddings# 使用示例corpus_texts = ["The High Court of Australia held that...", ...] # 14.3万份文档queries = ["What is the doctrine of precedent?", "How is negligence established?"]# 运行异步函数corpus_emb, query_emb = asyncio.run(generate_embeddings_batch(corpus_texts, queries))print(f"生成了 {len(corpus_emb)} 个文档嵌入,维度: {corpus_emb.shape[1]}")经过优化后,不同嵌入提供商的性能表现:
批处理速度(处理1000个法律文档):
单查询延迟(用户体验的关键指标):
注:P95表示95%的请求比这个时间快,是衡量用户体验的更好指标
Isaacus的kanon-2-embedder有一个独特特性:前几个维度携带了大部分语义信息。这让我们可以进行大幅度的维度裁剪:
import numpy as np# 加载完整的嵌入向量corpus_embeddings = np.load("embeddings/corpus_embeddings.npy")# 仅使用前256个维度(从1792维裁剪)corpus_256d = corpus_embeddings[:, :256].astype(np.float32)print(f"原始维度: {corpus_embeddings.shape[1]}")print(f"裁剪后维度: {corpus_256d.shape[1]}")print(f"内存占用减少: {(1 - 256/1792) * 100:.1f}%")优化效果惊人:
重要说明:这里的61% recall@10是相对于1792维全量检索的基准。在实际的RAG(检索增强生成)应用中,这通常足够了——因为检索只是第一步,后续还有重排序和生成步骤。
现在进入最精彩的部分:如何在不使用GPU的情况下实现毫秒级检索?
大多数向量搜索教程会推荐FAISS或Pinecone,但我发现了一个宝藏库:USearch[1]。它通过SIMD优化(现代CPU的并行指令集)在纯CPU上实现了惊人的速度。
pip install usearch numpyfrom usearch.index import search, MetricKind# 使用8个线程进行批量搜索matches = search( corpus_256d, # 文档嵌入向量 query_embeddings, # 查询嵌入向量100, # 返回前100个结果 MetricKind.Cos, # 使用余弦相似度 exact=True, # 精确搜索 threads=8# 多线程并行)# 结果:374 q/s,相比单线程提升7倍对于查询频率高于更新的场景,构建索引是值得的:
from usearch.index import Indeximport time# 创建HNSW索引index = Index( ndim=256, # 向量维度 metric=MetricKind.Cos, # 相似度度量 connectivity=32, # 连接数(越高质量越好,内存越大) expansion_add=200, # 构建时的扩展数 expansion_search=100# 搜索时的扩展数)print("开始构建索引...")start_time = time.time()# 批量添加文档for i, embedding in enumerate(corpus_256d): index.add(i, embedding)# 进度显示if (i + 1) % 10000 == 0: print(f"已索引 {i+1}/{len(corpus_256d)} 个文档")build_time = time.time() - start_timeprint(f"索引构建完成,耗时: {build_time:.1f}秒")# 保存索引供后续使用index.save("legal_search_index.usearch")# 准备半精度(16位)的256维向量corpus_256d_half = corpus_embeddings[:, :256].astype(np.float16)index = Index( ndim=256, metric=MetricKind.Cos, dtype="f16", # 半精度,节省50%内存 connectivity=32, expansion_add=200, expansion_search=100)# 快速构建(143K文档仅需59秒)for i, emb in enumerate(corpus_256d_half): index.add(i, emb)# 查询速度:2,880 q/s!| 基准线 | ||||
| 多线程 | ||||
| HNSW索引 | ||||
| 全栈优化 |
基准系统(53 q/s):
优化系统(2,880 q/s):
下面是一个完整的、可投入生产的法律文档搜索系统:
import numpy as npfrom usearch.index import Index, search, MetricKindfrom pathlib import Pathfrom typing import Optional, Union, List, Tupleimport timeimport jsonclassLegalDocumentSearcher:"""法律文档语义搜索引擎"""def__init__( self, corpus_embeddings: np.ndarray, optimization_level: str = "balanced", index_path: Optional[str] = None ):""" 初始化搜索引擎 参数: corpus_embeddings: 文档嵌入向量,形状为 (n_docs, n_dims) optimization_level: 优化级别 - "accuracy"|"balanced"|"speed" index_path: 索引保存路径(可选) """ self.corpus_embeddings = corpus_embeddings self.optimization_level = optimization_level self.index_path = index_path# 根据优化级别配置参数 self._configure_optimization()# 准备文档向量 self._prepare_corpus()# 构建或加载索引 self.index = self._setup_index()def_configure_optimization(self):"""根据优化级别配置参数""" configs = {"speed": {"dimensions": 256,"use_index": True,"dtype": "f16","connectivity": 32,"expansion_add": 200,"expansion_search": 100 },"balanced": {"dimensions": None, # 使用所有维度"use_index": True,"dtype": "f32","connectivity": 32,"expansion_add": 200,"expansion_search": 100 },"accuracy": {"dimensions": None,"use_index": False,"dtype": "f32","connectivity": None,"expansion_add": None,"expansion_search": None } }if self.optimization_level notin configs:raise ValueError(f"优化级别必须是: {list(configs.keys())}") config = configs[self.optimization_level]for key, value in config.items(): setattr(self, key, value)def_prepare_corpus(self):"""预处理文档嵌入向量"""if self.dimensions:# 裁剪维度 self.corpus_processed = self.corpus_embeddings[:, :self.dimensions] print(f"维度裁剪: {self.corpus_embeddings.shape[1]} -> {self.dimensions}")else: self.corpus_processed = self.corpus_embeddings# 转换数据类型if self.dtype == "f16": self.corpus_processed = self.corpus_processed.astype(np.float16)else: self.corpus_processed = self.corpus_processed.astype(np.float32)# 确保内存连续(SIMD优化需要) self.corpus_processed = np.ascontiguousarray(self.corpus_processed)def_setup_index(self):"""设置索引(构建或加载)"""ifnot self.use_index:returnNone# 如果有保存的索引,直接加载if self.index_path and Path(self.index_path).exists(): print(f"加载索引: {self.index_path}") index = Index.restore(self.index_path)# 加载元数据 meta_path = f"{self.index_path}.meta.json"if Path(meta_path).exists():with open(meta_path, 'r') as f: self.metadata = json.load(f)return index# 否则构建新索引 print("构建HNSW索引...") start_time = time.time() ndim = self.dimensions or self.corpus_embeddings.shape[1] index = Index( ndim=ndim, metric=MetricKind.Cos, dtype=self.dtype, connectivity=self.connectivity, expansion_add=self.expansion_add, expansion_search=self.expansion_search )# 添加文档向量 n_docs = len(self.corpus_processed)for i, embedding in enumerate(self.corpus_processed): index.add(i, embedding)if (i + 1) % 10000 == 0: print(f"进度: {i+1}/{n_docs}") build_time = time.time() - start_time print(f"索引构建完成,耗时: {build_time:.1f}秒")# 保存索引if self.index_path: index.save(self.index_path) self._save_metadata()return indexdef_save_metadata(self):"""保存索引元数据""" metadata = {"optimization_level": self.optimization_level,"dimensions": self.dimensions,"dtype": self.dtype,"corpus_size": len(self.corpus_processed),"embedding_dim": self.corpus_embeddings.shape[1],"build_time": time.strftime("%Y-%m-%d %H:%M:%S") }if self.index_path: meta_path = f"{self.index_path}.meta.json"with open(meta_path, 'w') as f: json.dump(metadata, f, indent=2)defsearch( self, query_embedding: np.ndarray, k: int = 10, include_scores: bool = False ) -> Union[List[int], Tuple[List[int], List[float]]]:""" 搜索相似文档 参数: query_embedding: 查询嵌入向量 k: 返回的结果数量 include_scores: 是否包含相似度分数 返回: 文档索引列表(或包含分数的元组) """# 确保查询向量维度匹配if self.dimensions: query_processed = query_embedding[:self.dimensions]else: query_processed = query_embedding query_processed = query_processed.astype(np.float32)if self.use_index and self.index:# 使用HNSW索引搜索 matches = self.index.search(query_processed, k)if include_scores:# 余弦相似度转换为距离 scores = [1 - dist for dist in matches.distances]return matches.keys.tolist(), scoresreturn matches.keys.tolist()else:# 精确搜索(多线程) matches = search( self.corpus_processed, query_processed.reshape(1, -1), k, MetricKind.Cos, exact=True, threads=8 )if include_scores: scores = [1 - dist for dist in matches.distances[0]]return matches.keys[0].tolist(), scoresreturn matches.keys[0].tolist()defbatch_search( self, query_embeddings: np.ndarray, k: int = 10 ) -> List[List[int]]:"""批量搜索""" results = []for query in query_embeddings: doc_indices = self.search(query, k) results.append(doc_indices)return results# 使用示例defmain():# 加载嵌入向量 print("加载文档嵌入向量...") corpus_embeddings = np.load("embeddings/corpus_embeddings.npy")# 创建搜索器(使用平衡模式) print("初始化搜索引擎...") searcher = LegalDocumentSearcher( corpus_embeddings=corpus_embeddings, optimization_level="balanced", # 速度与质量的平衡 index_path="indices/legal_search_balanced.usearch" )# 示例查询from isaacus import AsyncClientimport asyncioasyncdeftest_search(): client = AsyncClient(api_key=os.getenv("ISAACUS_API_KEY"))# 测试查询 test_queries = ["What constitutes negligence in Australian law?","How is the doctrine of precedent applied?","What are the elements of a valid contract?" ]# 生成查询嵌入 response = await client.embed( model="kanon-2-embedder", inputs=test_queries, task="retrieval/query" ) query_embeddings = np.array(response.embeddings, dtype=np.float32)await client.close()# 执行搜索for i, query in enumerate(test_queries): print(f"\n查询: '{query}'") start_time = time.time() results, scores = searcher.search(query_embeddings[i], k=5, include_scores=True) search_time = (time.time() - start_time) * 1000 print(f"搜索耗时: {search_time:.2f}ms") print("最相关文档:")for j, (doc_idx, score) in enumerate(zip(results, scores)): print(f" {j+1}. 文档 #{doc_idx} (相似度: {score:.3f})")# 运行测试 asyncio.run(test_search())if __name__ == "__main__": main()适用场景:
配置:
适用场景:
配置:
适用场景:
配置:
对于法律搜索应用,我推荐平衡模式——993 q/s的速度加上98.6%的召回率,既能提供优秀的用户体验,又能保证检索质量。
但如果你在构建RAG系统,需要快速筛选出前50-100个相关文档供后续处理,那么速度优先模式的2,880 q/s吞吐量将带来质的飞跃。
记住:一个能在0.35ms内返回61%相关结果的系统,往往比需要19ms才能返回100%结果的系统更有用——特别是在多级处理管道中。
现在,你已经拥有了构建高性能法律文档搜索系统所需的所有工具和知识。从选择合适的嵌入提供商开始,到实施维度裁剪和USearch优化,每一步都可以根据你的具体需求进行调整。
你在实际项目中是如何处理大规模文档检索的?有没有遇到过特别棘手的问题?欢迎在评论区分享你的经验和想法!
USearch GitHub仓库: https://github.com/unum-cloud/USearch
[2]Isaacus文档: https://docs.isaacus.com/
[3]Open Australian Legal Corpus: https://github.com/justinpombrio/open-australian-legal-corpus
[4]MLEB法律检索基准: https://isaacus.com/mleb
长按或扫描下方二维码,免费获取 Python公开课和大佬打包整理的几百G的学习资料,内容包含但不限于Python电子书、教程、项目接单、源码等等 推荐阅读
Python 3.15 在 Windows x86-64 上的解释器有望提速 15%
点击 阅读原文 了解更多