This project is scheduled for launch
Launch date: Monday, July 13, 2026 at 08:00 AM UTC

3个AI模型每日实时调用Polymarket市场数据。公开Brier评分。每次偏差均被记录。无任何编辑。第8天/共365天。
Ember 是一个实时 AI 预测实验,每天针对真实的 Polymarket 市场运行三个独立的 AI 模型——Claude(Anthropic)、Grok(xAI)和 Gemini(Google)。每个模型在市场结算前做出概率判断,所有判断均被记录、评分并公开发布。该项目遵循严格的 365 天方法论,规则锁定、Brier 评分公开,且预测一经做出绝不修改。
Ember 每天针对相同的市场问题运行 Claude、Grok 和 Gemini。每个模型采用不同的推理方式——Claude 综合预测市场和预测者社区信息,Grok 读取实时 X 平台情绪,Gemini 则基于搜索结果进行判断。当模型意见分歧时,这种偏差本身即成为信号。
每个已结算的判断均使用 Brier 评分(概率预测的标准准确度指标)进行评分。评分板完全公开并每日更新。上线 8 天后,Ember 在 157 个已结算判断中取得了 0.0365 的 Brier 评分,而市场整体评分为 0.0356。
预测一经做出绝不修改。当基础设施问题影响数据完整性时,Ember 会发布公开修正通知——目前已发布 9 次。方法论在完整的 365 天周期内保持锁定,并在第 300 天启动第二年评估。
当某个模型的概率与市场整体价格出现显著偏差时,Ember 会将其标记为高置信度信号。这些警报可实时提供给订阅用户,并在市场结算前突出潜在的定价错误。
三个 AI 模型每天独立对实时市场做出判断,结果揭晓前不做任何修改。每一次分歧都被记录并评分。
Ember 的优势在于其对 AI 预测的彻底透明度承诺。与黑箱预测系统不同,Ember 公开其完整记录——包括基础设施问题的修正通知——且从不事后修改判断。365 天的实验迫使模型随时间积累可追溯的业绩记录,使 Brier 评分在评估 AI 能否真正预测自身发展轨迹时具有实际意义。
对AI 预测准确度作为可衡量的公开实验(而非营销宣传)感兴趣。寻找系统性分歧信号的交易者、基于预测市场数据进行开发的开发者,以及研究 AI 预测的研究人员,都能从 Ember 的开放方法论和实时评分板中找到价值。每月 29 美元的 Founding Arena 订阅层级可提前获取公开发布前的实时判断,而 API 起价为每月 299 美元,适用于机构集成。
其他您可能感兴趣的工具
足球比赛洞察 – AI辅助 结构化比赛分析,附带置信度评分。赛前即可获取预测,并自动锁定。
Ranx 是一个在线社交平台,利用人工智能和用户生成的快照调查,进行众包、聚合和分析意见。Ranx 支持多种调查工具,例如可排序列表、单选和多选投票、可投票列表、饼图、分层列表、地图投票、锦标赛式分组、用于排序的滑动卡片组、用于双因素偏好的象限图、用于比较属性的多边形图,以及星级、评分和滑块等评分系统。用户可以在社交媒体上托管和分享调查及回复,并将其嵌入网站、电子邮件和应用程序中。用户可以通过我们的 AI 助手 RAIA 以及全面的数据分析和可视化工具来分析数据。我们是一个社交平台,您可以关注创作者、评论他们的调查、提出改进建议,并接收新内容和更新的通知。Ranx 可在智能手机、平板电脑和台式机上无缝运行,目前可通过 ranx.com 网页版访问,并即将在 iOS App Store 和 Google Play Store 上线。
排名第一的谷歌广告间谍工具,数据源自官方。追踪竞争对手在50多个国家的扩张情况,通过6项AI评分识别优胜广告。免费开始使用。
项目上线后即可查看评论。
制作者
Ember ..