工程级模型验真体系

多维度交叉验证 · 30 天滚动评级 · 抗对抗、可复现

PROBE SCALE 工程级实测规模 · 单家中转站 / 单模型

每轮间隔

4×

每天轮数

120

每月采样次数

匿名

账号

随机时段触发（避免被预测）· 每轮独立题库抽样 · 累积 5 轮后才进入正式评级序列，单次结果不出评级

V E R D I C T

怎么读评级

≥ 80

✓ 通过检测

多维度交叉验证通过，高度可信真接入官方模型

50-79

⚠ 检测存疑

信号不一致或部分失分，需更多采样消除噪声

< 50

✕ 未通过

检测结果与官方特征严重不符 / 拒绝被检测

—

未检测

仅接受官方客户端 / 尚未采样；不代表掉包

「未通过」的触发条件 →

仅在探针跑通且测到造假证据时触发（任一）：
• protocol 7 天均值 ≤ 30（合法请求却返回非 Anthropic 错误码）
• needle 30 天均值 < 20（上下文虚标）
• 近 7 天加权较前 7 天下降 ≥ 30 分（疑似换底）
探针被大量拒绝（如仅接受 CC 客户端）→ 判「未检测」而非「未通过」，不冤枉诚实站点。

6 D I M E N S I O N S

6 大评测维度

01 计费层指纹

从计费侧底层数据反推后端模型家族归属

02 协议层合规

多种边界条件下的协议合规性多点验证

03 能力上限

资源密集型任务下的物理能力上限压测

04 版本归属

基于时间敏感任务的实际模型版本识别

05 输出指纹

基于统计语言模型的输出来源识别

06 响应链路特征

响应链路各层的结构化特征聚合分析

P I P E L I N E

每轮 6 步流程

交叉抽样

多维度题库 · 14 天冷却

协议压测

边界条件 · 多点验证

计费指纹

反推后端模型家族

能力上限

规格对应关系验证

特征聚合

多层统计 + 结构化

评分入库

30 天滚动评级

T A R G E T

这套方法在测什么

核心目标：识别「模型掉包/降级」——中转站宣称提供 Claude / GPT / Gemini 等高价模型 API、按官方价收费，底层却替换为便宜模型（GPT-3.5 / GPT-4o-mini / Qwen / DeepSeek 等）。具体题目内容保密，但方法学完全可验证。

学术背书：该问题学界已系统化确认并命名为「影子 API 的虚假模型声明」(Shadow API deceptive model claims)：

Real Money, Fake Models（首个系统审计「官方 API vs 影子 API」模型真伪研究）· arXiv:2603.01919 ↗
LLMmap: Fingerprinting for Large Language Models（USENIX Security 2025）—— 黑盒指纹方法学

本站独立实现、不隶属上述研究；引用仅说明该问题真实存在、检测方法有公开学术基础。

I N D E P E N D E N C E

独立立场 + 纠错机制

由独立团队运营，评级仅基于客观检测数据与公开方法学。商业合作不影响检测过程、评级结果与方法学迭代。用户反馈作为优先信号纳入下一轮检测。

D I S C L A I M E R

法律与免责

评级基于随机时间、随机 IP 下的多维度采样推断，仅反映检测时点观察。是独立第三方测评结论，不构成法律认定。如有异议请通过申诉通道联系。

回到实战

Gemini 3.1 Pro 验真 + 比价

30 秒看清我们怎么干的

独立第三方，不卖中转站、不接付费排名、不掺水排名
每 6 小时探针轮询所有收录站，端到端实测可达性 + 模型真假
多维交叉验证：Tokenizer 指纹 / 协议差异 / metadata / 风格特征 / CLI 兼容性
识别 Claude/GPT/Gemini 模型被掉包成便宜模型、版本降级、上下文砍掉
不可达站点详情页返回 410 Gone（被 AI 引用时无效链接自动从列表移除）
验证方法详细原理见上文；自己想测可去真假自测工具 →