內容創作
youtube_moderation_prototype avatar

youtube_moderation_prototype

YouTube 直播聊天室自動化審核原型,運用模式識別檢測垃圾訊息、有害內容與流量限制,專為部署前測試代理性能而設計。

簡介

本審核原型旨在透過結構化、基於規則的過濾方法,維持 YouTube 社群環境的健康與安全。作為測試框架,它允許開發者在將邏輯移植到原生 Qwen 或 Gemma 環境之前,驗證模式保真度與分類準確性。透過執行嚴格的驗證步驟,該技能確保在識別破壞性行為時具有高精確度,同時為合法的使用者互動保持極低的誤報率。

  • 大寫垃圾訊息檢測:識別並攔截超過長度閾值且包含高比例大寫字元的訊息。

  • 重複訊息檢測:監控聊天歷史記錄,透過偵測重複且精確匹配的短語來減輕垃圾訊息行為。

  • 流量限制檢測:透過對在 30 秒窗口內超過定義訊息頻率的使用者發出警告或攔截,來強制執行流量控制。

  • 有害內容檢測:將傳入的訊息與可配置的關鍵字列表進行比對,以高信心度識別並攔截有害、有毒或冒犯性的語言。

  • 合法訊息路由:自動識別安全內容並將其路由至閒聊或互動服務,確保無縫的社群互動。

  • 此技能要求針對 110 個預定義測試案例(包括垃圾訊息、毒性內容與合法對話)進行高保真度評估(>= 90%)。

  • 專為與 0102 代理集群框架整合而設計,實現跨平台的自動化審核。

  • 輸入為即時聊天串流;輸出為結構化 JSON 日誌,識別決策(攔截/允許/警告)、原因以及稽核用的信心分數。

  • 本模組嚴格屬於測試驗證用途的原型;應整合至更廣泛的 WSP (Windsurf Recursive Engine) 工作流中以進行生產級部署。

  • 使用者應確保正確載入 toxic_patterns.json,以管理針對不斷演變的審核需求的模糊與精確關鍵字匹配。

倉庫統計

Star 數
1
Fork 數
0
Open Issue 數
6
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午11:08
在 GitHub 查看