英国帝国理工学院、斯坦福大学与互联网档案馆组成的研究团队近日公布了一项关于互联网内容生态的调查结果。数据显示,自2022年11月ChatGPT发布至2025年中期,全球互联网新增内容中约35%带有明显的AI生成特征,这些内容或完全由AI创作,或在AI辅助下完成。研究团队通过分析互联网档案馆"Wayback Machine"收录的2022至2025年间网页数据,采用多维度分层抽样技术模拟随机获取样本,并结合Binoculars、Desklib等四种专业AI文本检测工具进行内容溯源分析。
研究特别关注了公众普遍担忧的AI对文字内容的潜在影响,包括语义收缩、事实准确性下降、情绪表达单一化等六个维度。通过对比分析发现,AI生成内容在语义重复率上比人类创作高出33%,正面情绪表达强度则高出107%,这两项指标获得显著数据支持。但关于事实质量下降、知识孤岛形成、信息密度降低等说法,在统计层面未得到验证。例如,在涉及专业领域的内容中,AI生成文本的事实核查通过率与人类创作基本持平。
数据显示,AI内容占比在ChatGPT推出后呈现指数级增长,从最初几乎可以忽略不计迅速突破三分之一阈值。这种变化不仅体现在社交媒体、新闻评论等非正式场景,在学术论文摘要、商业报告等正式文本领域也出现明显渗透。研究指出,当前AI对互联网内容生态的影响主要集中于表达方式的同质化,特别是在情感倾向和句式结构方面,但对内容真实性的影响尚未形成系统性证据。值得注意的是,不同语言环境下的AI渗透程度存在差异,英语内容中的AI生成比例显著高于其他语种。

