Skills 个人中心我的提交资源提交资源

返回数据资源列表

数据资源TextLLM evaluation benchmarkHealth AI evaluation benchmark开放访问

HealthBench 健康 AI 评测基准

Benchmark for evaluating health AI model safety, helpfulness, and clinical-relevance judgments with physician-reviewed rubrics.

benchmark health AI safety LLM evaluation

数据集默认配图 - 医疗大模型与 Agent

数据资源详情

数据模态: Text
资源类别: LLM evaluation benchmark
数据规模: Health AI evaluation benchmark
许可协议: See OpenAI HealthBench release
访问方式: 开放访问
适用任务: 医学问答、safety evaluation、临床推理
来源: OpenAI / arXiv