文献导读丨ChatGPT在科研评价中的潜在偏见：一项基于11.7万篇文献的大规模分析

发布时间：2025-10-07 阅读数：177 发布：AgilePub

近年来，以ChatGPT为代表的大型语言模型（LLM）在科学研究过程中的渗透日益深入，其应用已从辅助写作、文献梳理逐步拓展至更为核心的科研评价环节。初步证据表明，其能基于论文标题与摘要生成质量评分，且与人类专家评估结果具有一定相关性，这为其辅助甚至部分优化传统同行评议体系提供了潜在可能。然而，此类模型的“黑箱”特性及其训练数据中固有社会偏见与认知模式的潜在影响，引发了学界对其评估结果公正性与稳健性的深切担忧。针对这一问题，英国谢菲尔德大学信息学院Mike Thelwal教授及其团队在Scientometrics上发表一项大规模研究，通过对26个学科、5个时间节点逾11.7万篇文献进行分析，系统地评估了ChatGPT在科研评价中存在的潜在偏见问题。

一、研究方法
1.数据收集：从Scopus数据库26个非综合性学科类别中，选取在2003、2008、2013、2018、2023年均有发文且仅属于单一学科的期刊论文，排除摘要短于786字符的文献，共117,650篇论文纳入研究。
2.评估流程：使用GPT-4o-mini模型，并要求其根据英国科研卓越框架（REF）专家评审标准，对论文的标题和摘要进行评分。评审维度包括原创性、严谨性、显著性；评分范围：1-4分（国家级至世界领先级）。

二、研究结果

1.年份偏见
26个学科中，2023年论文的平均得分均高于2003年。“发表年份”可解释ChatGPT评分变异的平均3.6%。这表明ChatGPT可能未充分考虑论文在其发表时代的背景与开创性价值，而是隐性地将“新近性”与“质量”关联。若直接使用原始分数，会系统性低估早期研究的价值。

2. 学科偏见
不同学科间的平均得分差异巨大（图1）。例如，“生物化学、遗传学与分子生物学”“神经科学”“数学”持续获得较高平均分，而“兽医”“健康专业”等领域则持续偏低。这提示跨学科比较必须进行学科标准化处理。

图1 各学科领域不同发表年份论文的ChatGPT平均得分

3. 长度偏见

摘要越长，ChatGPT评分越高（平均解释3.3%得分变异）（图2）。这主要源于高影响力期刊倾向于允许或要求更长的摘要，而ChatGPT能够识别这些论文的整体质量有关。少数归因于ChatGPT自身对长文本的偏好（模型固有倾向）。

图2 不同年份和学科领域的ChatGPT评分与摘要长度（对数）的Pearson相关系数

4. 国家偏见
第一作者国籍与ChatGPT评分有关（图3），来自美国、加拿大、法国、英国等欧美国家作者的论文评分较高，而印度作者评分较低，这可能与印度的人均科研投入较低有关。此外，研究未发现语言偏见，例如未发现明确的以英语为母语国家的系统性优势。

图3 各独立变量（发表年份、题目/摘要长度、第一作者国籍）对ChatGPT评分影响的平均回归系数

5. 引用次数相关性
在所有研究领域中，所分析文章的引用次数与ChatGPT的评分呈正相关，不过不同领域之间的相关性存在显著差异（图4）。

图4 ChatGPT评分与Scopus引用次数之间的Pearson相关性分析

三、研究局限性
1.研究样本：仅覆盖Scopus单学科期刊，未含多学科期刊论文。
2.模型版本：基于GPT-4o-mini，未来模型可能优化偏误。
3.评价标准依赖：使用英国REF框架，普适性存疑。
4.伦理漏洞：若广泛使用，作者可能通过优化摘要操纵评分。

四、研究结论
ChatGPT在科研评价中存在偏见。为确保评价的公平性与可比性，须对ChatGPT原始评分进行标准化处理，作者推荐将论文原始ChatGPT评分，除以同领域同年份论文的平均ChatGPT评分进行校正。此外，摘要长度是否需要校正仍需进一步研究。
LLMs应被视为一种强大的辅助工具，而非专家评审的替代品。最可行的应用范式是人机协同，即由模型完成初筛与量化评分，随后由领域专家对结果进行评判与最终决策。

参考文献：Thelwall, M., & Kurt, Z. (2025). Research evaluation with ChatGPT: is it age, country, length, or field biased? Scientometrics. https://doi.org/10.1007/s11192-025-05393-0

上一篇：科技部发布《科学技术活动违规行为调查处理规定（征求意见稿）》下一篇：美国研究诚信办公室（ORI）发布《最终规则指引文件》

《科学技术活动违规行为调查处理规定》政策解读

2026-02-20

科技部修订发布《科学技术活动违规行为调查处理规定》

2026-02-20

国家自然科学基金委员会案件通报（2026年第1批）

2026-01-25

撤稿观察 · 致敬2025 | 迎来15周年！浏览量超

2026-01-12