研究
ai-writing-detection
全面的 AI 文本检测框架。通过词汇分析、结构模式、模型指纹与技术元数据比对,精准辨识 AI 生成内容与写作痕迹。
简介
此技能提供用于辨识 AI 生成内容的专业知识库与分析方法论。通过多层次验证策略,将语言特征与生成文本中内嵌的技术元数据(Metadata)进行关联分析,超越简单的启发式检查。本工具专为研究人员、内容审核者与技术写作者设计,协助评估信息来源并维持人类创作的完整性。
-
技术元数据扫描:直接侦测明确的 AI 标记,例如 ChatGPT/GPT-4 的输出特征(turn0search, oaicite, utm_source 追踪码)、Grok 专用 XML 标签及 Markdown 结构异常。
-
语言模式比对:分析高信号 AI 词汇(如“delve”、“tapestry”)、重复的三段式结构(tricolon)、负面平行句法与同义词循环替换。
-
模型特征指纹:识别各主流 AI 平台的特定风格倾向,区分 Claude 的严谨语调与 Gemini 的事实密集式对话合成风格。
-
多层次信心评分:涵盖九个分析维度,包括句子长度变异度(Burstiness)、格式异常(标题首字母大写过度、行内标题列表)与引用完整性(DOI/ISBN 校验码检查)。
-
误判防范:提供区分人类创作习惯与算法模式的指导方针,确保分析的客观性。
-
适用于审核文件、验证信息可靠度,或分析不同 LLM 架构的风格足迹。
-
输入通常为原始文字字符串;输出则提供基于信心加权且详细的 AI 生成信号分析结果。
-
建议在下结论前交互验证多个层级(Layer 1-9),因单一特征也可能出现在人类的创意写作中。
-
此方法论针对侦测常见缺陷进行优化,包括“重要性夸饰”、“挑战与未来”模板化结构,以及预留占位符的参考资料。
仓库统计
- Star 数
- 1,108
- Fork 数
- 100
- Open Issue 数
- 4
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月1日 07:17