o3 的数学推理能力真的被高估了吗?所谓的基准测试牢靠吗?
Top