工程开发
reverse-engineering-api avatar

reverse-engineering-api

通过捕获浏览器流量 (HAR 文件) 进行网络 API 逆向工程,并自动生成可用于自动化与数据提取的 Python API 客户端。

简介

此技能作为自动化工程助理,旨在架起网页浏览与 API 开发之间的桥梁。它允许用户将手动网页互动(如登录、搜索或分页浏览)转化为稳定、可重复使用的 Python API 客户端。通过利用 Playwright MCP 进行浏览器控制与 HAR (HTTP Archive) 流量分析,代理程序能够捕获驱动现代 Web 应用程序的底层网络请求,并过滤掉静态资源、追踪脚本与广告,专注于功能性 API 端点。此工具专为开发人员、数据工程师与自动化专家设计,适用于需要与未公开的 Web 服务集成,或在不依赖脆弱网页爬虫的情况下进行程序化数据提取的需求。

  • 浏览器自动化:使用 Playwright 模拟人类互动并具备隐身模式,以确保流量捕获的有效性。

  • HAR 分析流程:运用专用的工具脚本 (har_filter, har_analyze, har_validate) 将杂乱的原始网络流量转换为结构化的 API 文档。

  • 自动化代码生成:生成结构清晰、包含类型提示且可投入生产环境的 Python 代码,并内置错误处理与 Session 管理。

  • 模式识别:能自动从捕获的标头 (Headers) 与负载 (Payloads) 中识别验证机制、分页逻辑与请求结构。

  • 验证机制:包含严格的验证阶段,并设有 90% 的覆盖率门槛,确保生成的客户端能准确反映网页行为。

  • 工作流程:代理程序遵循可追踪的线性程序:浏览器捕获 -> 流量过滤 -> 端点分析 -> 代码生成 -> 验证。

  • 输入:用户指定的任务、网页 URL 以及浏览器操作步骤。

  • 输出:结构化的 Python API 模块 (api_client.py)、README 文档以及完整的 HAR 分析记录。

  • 运作限制:需依赖 Playwright MCP 集成;受目标网站的反爬虫技术影响,可能存在抓取限制。

  • 实践建议:务必使用内置的验证工具确认生成的代码,确保所有端点与标头(如 CSRF Token、自定义 Cookies)皆正确实现。

仓库统计

Star 数
664
Fork 数
60
Open Issue 数
1
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 09:15
在 GitHub 查看