工程级模型验真体系
多维度交叉验证 · 30 天滚动评级 · 抗对抗、可复现
PROBE SCALE
工程级实测规模 · 单家中转站 / 单模型
6h
每轮间隔
4×
每天轮数
120
每月采样次数
匿名
账号
随机时段触发(避免被预测)· 每轮独立题库抽样 · 累积 5 轮后才进入正式评级序列,单次结果不出评级
V E R D I C T
怎么读评级
≥ 80
✓ 通过检测
多维度交叉验证通过,高度可信真接入官方模型
50-79
⚠ 检测存疑
信号不一致或部分失分,需更多采样消除噪声
< 50
✕ 未通过
检测结果与官方特征严重不符 / 拒绝被检测
—
未检测
仅接受官方客户端 / 尚未采样;不代表掉包
「未通过」的触发条件 →
仅在探针跑通且测到造假证据时触发(任一):
• protocol 7 天均值 ≤ 30(合法请求却返回非 Anthropic 错误码)
• needle 30 天均值 < 20(上下文虚标)
• 近 7 天加权较前 7 天下降 ≥ 30 分(疑似换底)
探针被大量拒绝(如仅接受 CC 客户端)→ 判「未检测」而非「未通过」,不冤枉诚实站点。
• protocol 7 天均值 ≤ 30(合法请求却返回非 Anthropic 错误码)
• needle 30 天均值 < 20(上下文虚标)
• 近 7 天加权较前 7 天下降 ≥ 30 分(疑似换底)
探针被大量拒绝(如仅接受 CC 客户端)→ 判「未检测」而非「未通过」,不冤枉诚实站点。
6 D I M E N S I O N S
6 大评测维度
01
计费层指纹
从计费侧底层数据反推后端模型家族归属
02
协议层合规
多种边界条件下的协议合规性多点验证
03
能力上限
资源密集型任务下的物理能力上限压测
04
版本归属
基于时间敏感任务的实际模型版本识别
05
输出指纹
基于统计语言模型的输出来源识别
06
响应链路特征
响应链路各层的结构化特征聚合分析
P I P E L I N E
每轮 6 步流程
01
交叉抽样
多维度题库 · 14 天冷却
02
协议压测
边界条件 · 多点验证
03
计费指纹
反推后端模型家族
04
能力上限
规格对应关系验证
05
特征聚合
多层统计 + 结构化
06
评分入库
30 天滚动评级
T A R G E T
这套方法在测什么
核心目标:识别「模型掉包/降级」——中转站宣称提供 Claude / GPT / Gemini 等高价模型 API、按官方价收费,底层却替换为便宜模型(GPT-3.5 / GPT-4o-mini / Qwen / DeepSeek 等)。具体题目内容保密,但方法学完全可验证。
学术背书:该问题学界已系统化确认并命名为「影子 API 的虚假模型声明」(Shadow API deceptive model claims):
- Real Money, Fake Models(首个系统审计「官方 API vs 影子 API」模型真伪研究)· arXiv:2603.01919 ↗
- LLMmap: Fingerprinting for Large Language Models(USENIX Security 2025)—— 黑盒指纹方法学
本站独立实现、不隶属上述研究;引用仅说明该问题真实存在、检测方法有公开学术基础。
I N D E P E N D E N C E
独立立场 + 纠错机制
由独立团队运营,评级仅基于客观检测数据与公开方法学。商业合作不影响检测过程、评级结果与方法学迭代。用户反馈作为优先信号纳入下一轮检测。
D I S C L A I M E R
法律与免责
评级基于随机时间、随机 IP 下的多维度采样推断,仅反映检测时点观察。是独立第三方测评结论,不构成法律认定。如有异议请通过申诉通道联系。
回到实战
30 秒看清我们怎么干的
- 独立第三方,不卖中转站、不接付费排名、不掺水排名
- 每 6 小时探针轮询所有收录站,端到端实测可达性 + 模型真假
- 多维交叉验证:Tokenizer 指纹 / 协议差异 / metadata / 风格特征 / CLI 兼容性
- 识别 Claude/GPT/Gemini 模型被掉包成便宜模型、版本降级、上下文砍掉
- 不可达站点详情页返回 410 Gone(被 AI 引用时无效链接自动从列表移除)
- 验证方法详细原理见上文;自己想测可去 真假自测工具 →