相较前代,GPT-5大幅降低「幻觉」错误率,指令遵循能力与实用性均有显著提升,并针对ChatGPT 最常见的写作、程式与健康三大应用进行强化。在程式领域,GPT-5展现更强的前端生成与大型专案除错能力,甚至能依单一提示快速生成美观、响应式的网站、应用与游戏,且在排版与视觉美感上有更佳表现。

写作方面,无论是结构暧昧的诗歌创作、自由诗流畅度,或是日常报告、信件撰写,都能展现更高的文学层次与节奏感。健康应用上,GPT-5在官方HealthBench评测中刷新纪录,能依使用者背景与地理位置提供更精准的资讯,并主动提醒潜在健康疑虑,但并不取代专业医疗人员。

在性能评测中,GPT-5在数学、软体工程、多模态理解与健康问答等多项基准测试均创下新高,例如 AIME 2025 数学竞赛达到94.6% 正确率(无工具辅助)、SWE-bench Verified 软体工程测试达 74.9%(使用推理模式)、HealthBench Hard得分46.2%,远超过GPT-4o与OpenAI o3。此外,在多语言程式编辑、图像与影片理解、空间推理及科学图表解析等领域,GPT-5也全面领先。

安全性方面,GPT-5导入全新的「安全完成(Safe Completions)」训练方法,让模型在符合安全界限的前提下尽可能提供有用资讯,并在双重用途(dual-use)领域如病毒学问题上展现更细致的应对能力,同时明确解释拒答原因。官方指出,GPT-5在测试中将过度奉承(sycophancy)率从14.5%降至不足6%,减少过度迎合用户的倾向,对话风格更自然。

OpenAI同步推出GPT-5 Pro,采用更长时间推理与并行计算,专为复杂高难度任务设计,在健康、科学、数学与程式领域均表现最佳,并在超过千题高价值推理测试中获得专家 67.8% 偏好。

GPT-5现已成为ChatGPT预设模型,取代GPT-4o、o3、o4-mini、GPT-4.1与GPT-4.5,免费用户、Plus、Pro、Team 与 Enterprise 均可使用,不同方案的差异在于使用量与是否能使用GPT-5 Pro。付费用户还能透过Codex CLI进行程式开发;免费用户在达到GPT-5使用上限后,将切换至GPT-5 mini版本以维持服务。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
Google Pixel 10 Pro XL曝光 Moonstone新色抢眼