reverse-engineering-api

简介

此技能作为自动化工程助理，旨在架起网页浏览与 API 开发之间的桥梁。它允许用户将手动网页互动（如登录、搜索或分页浏览）转化为稳定、可重复使用的 Python API 客户端。通过利用 Playwright MCP 进行浏览器控制与 HAR (HTTP Archive) 流量分析，代理程序能够捕获驱动现代 Web 应用程序的底层网络请求，并过滤掉静态资源、追踪脚本与广告，专注于功能性 API 端点。此工具专为开发人员、数据工程师与自动化专家设计，适用于需要与未公开的 Web 服务集成，或在不依赖脆弱网页爬虫的情况下进行程序化数据提取的需求。

浏览器自动化：使用 Playwright 模拟人类互动并具备隐身模式，以确保流量捕获的有效性。
HAR 分析流程：运用专用的工具脚本 (har_filter, har_analyze, har_validate) 将杂乱的原始网络流量转换为结构化的 API 文档。
自动化代码生成：生成结构清晰、包含类型提示且可投入生产环境的 Python 代码，并内置错误处理与 Session 管理。
模式识别：能自动从捕获的标头 (Headers) 与负载 (Payloads) 中识别验证机制、分页逻辑与请求结构。
验证机制：包含严格的验证阶段，并设有 90% 的覆盖率门槛，确保生成的客户端能准确反映网页行为。
工作流程：代理程序遵循可追踪的线性程序：浏览器捕获 -> 流量过滤 -> 端点分析 -> 代码生成 -> 验证。
输入：用户指定的任务、网页 URL 以及浏览器操作步骤。
输出：结构化的 Python API 模块 (api_client.py)、README 文档以及完整的 HAR 分析记录。
运作限制：需依赖 Playwright MCP 集成；受目标网站的反爬虫技术影响，可能存在抓取限制。
实践建议：务必使用内置的验证工具确认生成的代码，确保所有端点与标头（如 CSRF Token、自定义 Cookies）皆正确实现。

创业课程

在线课程

实体课程

reverse-engineering-api

简介

仓库统计