Ctrl+D(Windows)或 ⌘+D(Mac)将本站加入收藏夹

工程级模型验真体系

多维度交叉验证 · 30 天滚动评级 · 抗对抗、可复现

PROBE SCALE 工程级实测规模 · 单家中转站 / 单模型
6h
每轮间隔
每天轮数
120
每月采样次数
匿名
账号

随机时段触发(避免被预测)· 每轮独立题库抽样 · 累积 5 轮后才进入正式评级序列,单次结果不出评级

V E R D I C T

怎么读评级

≥ 80
✓ 通过检测
多维度交叉验证通过,高度可信真接入官方模型
50-79
⚠ 检测存疑
信号不一致或部分失分,需更多采样消除噪声
< 50
✕ 未通过
检测结果与官方特征严重不符 / 拒绝被检测
未检测
仅接受官方客户端 / 尚未采样;不代表掉包
「未通过」的触发条件 →
仅在探针跑通且测到造假证据时触发(任一):
• protocol 7 天均值 ≤ 30(合法请求却返回非 Anthropic 错误码)
• needle 30 天均值 < 20(上下文虚标)
• 近 7 天加权较前 7 天下降 ≥ 30 分(疑似换底)
探针被大量拒绝(如仅接受 CC 客户端)→ 判「未检测」而非「未通过」,不冤枉诚实站点。
6 D I M E N S I O N S

6 大评测维度

01 计费层指纹
从计费侧底层数据反推后端模型家族归属
02 协议层合规
多种边界条件下的协议合规性多点验证
03 能力上限
资源密集型任务下的物理能力上限压测
04 版本归属
基于时间敏感任务的实际模型版本识别
05 输出指纹
基于统计语言模型的输出来源识别
06 响应链路特征
响应链路各层的结构化特征聚合分析
P I P E L I N E

每轮 6 步流程

01
交叉抽样
多维度题库 · 14 天冷却
02
协议压测
边界条件 · 多点验证
03
计费指纹
反推后端模型家族
04
能力上限
规格对应关系验证
05
特征聚合
多层统计 + 结构化
06
评分入库
30 天滚动评级
T A R G E T

这套方法在测什么

核心目标:识别「模型掉包/降级」——中转站宣称提供 Claude / GPT / Gemini 等高价模型 API、按官方价收费,底层却替换为便宜模型(GPT-3.5 / GPT-4o-mini / Qwen / DeepSeek 等)。具体题目内容保密,但方法学完全可验证

学术背书:该问题学界已系统化确认并命名为「影子 API 的虚假模型声明」(Shadow API deceptive model claims)
  • Real Money, Fake Models(首个系统审计「官方 API vs 影子 API」模型真伪研究)· arXiv:2603.01919 ↗
  • LLMmap: Fingerprinting for Large Language Models(USENIX Security 2025)—— 黑盒指纹方法学
本站独立实现、不隶属上述研究;引用仅说明该问题真实存在、检测方法有公开学术基础。
I N D E P E N D E N C E

独立立场 + 纠错机制

由独立团队运营,评级仅基于客观检测数据与公开方法学。商业合作不影响检测过程、评级结果与方法学迭代。用户反馈作为优先信号纳入下一轮检测。

D I S C L A I M E R

法律与免责

评级基于随机时间、随机 IP 下的多维度采样推断,仅反映检测时点观察。是独立第三方测评结论,不构成法律认定。如有异议请通过申诉通道联系。

回到实战
30 秒看清我们怎么干的
  • 独立第三方,不卖中转站、不接付费排名、不掺水排名
  • 每 6 小时探针轮询所有收录站,端到端实测可达性 + 模型真假
  • 多维交叉验证:Tokenizer 指纹 / 协议差异 / metadata / 风格特征 / CLI 兼容性
  • 识别 Claude/GPT/Gemini 模型被掉包成便宜模型、版本降级、上下文砍掉
  • 不可达站点详情页返回 410 Gone(被 AI 引用时无效链接自动从列表移除)
  • 验证方法详细原理见上文;自己想测可去 真假自测工具 →