算法、沉默与不可见的图像
- Marília Oliveira

- 4天前
- 讀畢需時 8 分鐘

我从小就接触互联网。我不仅是互联网用户,还曾在TikTok Shop和YouTube Shorts等平台上创作内容。与此同时,我的大学专业是数据科学。这些经历改变了我看待世界的方式。
一旦你理解了指标、分发、留存率、点击率 (CTR)、完成率、A/B 测试等等,你的天真就会消失。你会开始发现规律,同时也会发现一些异常情况。
其中一个问题虽然简单却令人恼火。虽然我们被鼓励每天上传视频,但为什么我们经常收到“此视频违反了我们的社区准则”这样含糊不清的通知,却没有任何明确的解释?申诉通常可以恢复很多视频,但为什么有些视频仍然“未发布”?而且,为什么大型平台和网红似乎不受这些限制?
随着时间的推移,我逐渐将此与另一种常见的经历联系起来:甄选过程,最终要么得到千篇一律的回答,要么彻底沉默。
这并非巧合,其背后存在结构性逻辑。
每天生产的压力
无限一致性的神话
道理很明确:持续性才能带来增长。算法会奖励发帖频率高的用户。发帖更频繁的用户会获得更多关注。
但这个故事中隐藏着一种紧张感。
作为一名数据科学家,我知道平台会优化用户留存率和屏幕使用时长。它们会鼓励用户在应用上花费更多时间。换句话说,算法并非“中立的评判者”,而是优化系统。
优化系统会选择使目标函数最大化的方案。
对于这些平台,此功能通常如下所示:
显示时间
立即参与
库存
返回应用
这并不一定正确。这关乎效率。
什么才能真正营造沉浸感?
对于任何从事数据工作的人来说,这都不是什么秘密:能够唤起强烈情感的内容表现更好。
愤怒。好奇。恐惧。谣言。耸人听闻。
假新闻也是如此。
这并非仅仅是个人观点,而是大规模观察到的人类行为。通过衡量分享率、峰值观看时长以及每千次观看评论数等指标,我们发现中立、平衡的内容难以与极端主义内容竞争。
所以问题是,如果系统经过优化以最大限度地提高参与度,那么技术性、批判性或反思性视频的传播范围有限,我们又有什么理由感到惊讶呢?
或许问题就出在期望本身。
含糊不清的通知和算法的沉默
“您的视频违反了我们的社区准则。”
任何内容创作者可能都收到过类似的信息。这类信息几乎总是笼统而含糊,没有明确指出是哪个短语、哪个词或哪种表达方式出了问题。
你已提出上诉。
几天后,您会收到另一条通知,内容为:“我们的审核结果显示,您的视频并未违反我们的准则。”
很好。但损失已经无法挽回。视频发布时机不对,而且传播范围很窄。很难挽回。
在某些情况下,即使未确认存在违规行为,视频的传播也会受到限制。视频不会被删除,只是禁止传播。
对于了解该系统原理的人来说,这引发了几个假设。
规模和运营成本的适当性
Meta、TikTok 和 YouTube 等平台每天处理数十亿次的上传内容。
人工审核所有内容是不可能的,因此大部分审核过程都是自动化的。
机器学习模型根据内容违规的可能性对其进行分类。这并非简单的二元分类,而是一种统计判断。
当概率超过某个阈值时,视频可能会显示以下内容:
计划删除
射程缩短
将会送交人工审核。
这里我们重点强调一个重要的技术要点:误报。
所有分类系统都面临着准确率和召回率之间的权衡。为了最大限度地降低问题内容的风险,必须提高模型的灵敏度。然而,这也会导致更多的误报。
这意味着即使没有违反任何规则的内容,也可能受到预防性处罚。
从公司的角度来看,这或许可以接受,但从创作者的角度来看,这非常令人失望。
战略不透明性
除了技术限制之外,还有另一个因素:战略。
完全透明将使内容创作者能够更精准地“对抗系统”。如果他们能够准确找出触发封锁的关键词,就可以在不改变内容性质的前提下绕过封锁。
平台有意避免这种程度的清晰度。
不透明不仅仅是一种缺陷;它也是一种控制工具。
与选拔过程的相似之处
这次经历就像去参加面试一样。
您需要参与一系列流程:提交简历、参加技能测试以及与招聘经理面试。
请和你的经理谈谈。
仍然。
或者您可能会收到一条通用消息,内容是:“我们决定选择另一位更符合您条件的候选人。”
您指的是哪种类型的人才?具体指哪些方面?经验?沟通能力?与企业文化的契合度?
什么都没解释清楚。
第一印象偏差
数据科学和组织心理学都表明,人类的决策深受第一印象偏见的影响。
面试官会在谈话开始的几分钟内形成一个假设,而面试的剩余时间通常都用来验证这个假设。
那么,给候选人的理由就比较笼统了。并非没有理由,而是因为提供细节会带来法律风险、运营成本和曝光机会。
沉默更安全。
与平台的情况一样。
规模和标准化
大型公司会收到成千上万份简历。平台会收到数百万个视频。
无论哪种情况,定制化都需要付出高昂的成本。
这将向您展示标准回复、自动决策和预筛选选项。
这不是个人感受,而是规模问题。
但心理影响因人而异。
你开始怀疑自己的能力和正直。
为什么大型门户网站似乎不受影响?
这是最困扰我的问题。
主流媒体和网络红人每天发布数十个视频,其中很多内容露骨。然而,公众却对此视而不见。
这一切背后究竟隐藏着什么?
历史和内部评分
该平台采用信誉系统。
拥有长期良好记录、低违规率和高正面互动率的创作者,在算法上往往更值得信赖。
可以合理推测,存在一个衡量可信度的“内部评分”,该评分会影响以下方面:
自动阻塞概率
审查速度
初始接触
大型门户网站拥有法务团队,精通相关法规,因此能够策略性地调整措辞,从而降低罚款风险。
商业关系
另一个因素是收入来源。
大型内容创作者能创造可观的收入。他们能吸引广告商,留住平台用户,并增强品牌影响力。
我并不是提倡直接偏袒,但任何公司都倾向于给予其战略客户优先待遇。
这种情况在银行、软件公司和咨询公司屡见不鲜。为什么数字平台就应该例外呢?
冗余的好处
有影响力的博主会发布大量视频。即使其中一个视频质量不高,其他十个视频也能弥补这一点。
对于小型创作者来说,一个受到处罚的视频可能会损失其每周 30% 的观看量。
人们之所以更强烈地感受到不公平,是因为相对影响更大。
这一切背后究竟隐藏着什么?
总而言之,它可以分为五层。
1. 优化互动
该算法优先考虑用户留存率和广告收入。能够最大化这些指标的内容往往会受到青睐。
2. 风险管理
平台倾向于限制而非允许可能导致声誉危机的内容。
3. 运营规模
数十亿条内容需要自动化处理。自动化会导致错误,而错误会导致挫败感。
4. 将不透明性作为一种策略
完全透明会削弱控制力,并可能导致大规模操纵。
5. 权力失衡
小规模养殖户的影响力较小,直接接触较少,犯错的余地也较小。
我觉得自己好像隐形了一样。
这一切背后都有更深层的含义。
当一段视频“未被发送”时,不会引发公开讨论,也不会有人明确删除它。它就这么消失了。
这是一种现代形式的沉默。
即使你说话,也几乎没人听。
这会造成一种内容创作者内疚的氛围:“我的内容不好吗?”“是不是因为我不了解算法?”
有时是这样,但并非总是如此。
作为一名数据分析师,我知道系统并不完美。我也知道指标是人为选择的,并非自然而然产生的。它们是人为决策的结果。
对内容创作的影响
随着时间的推移,许多繁殖者的行为发生了改变。
他们回避复杂的话题。
他们把事情想得太简单了。
他们使用更吸引人的标题。
他们就是在制造争议。
系统决定内容的形式。
这令人担忧。
如果人们感兴趣的是肤浅的东西,而深刻的东西是有限的或危险的,那么互联网就会变得越来越肤浅。
这并非出于个人恶意,而是由于结构性激励机制所致。
我作为数据科学家学到了什么
我们已经了解到,每个系统都有一个目标,而设定这个目标的人决定了系统的运作方式。
如果目标函数是验证信息的质量,那么信息源的内容可能会有所不同。
但衡量质量很难,而测量显示时间却很容易。
所以,要选择可衡量的东西。
这种现象也发生在企业中,企业在选拔过程中往往优先考虑速度和最大限度地降低法律风险,而不是提供详细的反馈。
指标塑造文化。
有解决办法吗?
我不相信简单的解决办法。
提高透明度会有所帮助。更清晰的审查标准也会有所裨益。
但它也存在明显的局限性。
跨平台竞争
追求利润的压力
监管风险
大规模
或许变革更有可能来自外部监管,而不是内部努力。
或许是因为用户开始更重视深度内容,而不是即时娱乐。
我不知道。
我该如何解决这个问题?
我仍在继续创作作品。
但我创作作品是有意识的。
我知道并非所有视频都能送达。我也知道有些通知可能不够清晰。我还知道大型公司会采取不同的策略。
我也知道,我不能把自尊建立在一个优先考虑用户留存率而不是我的智力成长的平台上。
同样,你不能仅凭一封千篇一律的拒信来评判我的专业价值。
结论
在需要每天创作内容的社交媒体平台上成长,是一种既刺激又陌生的体验。
作为一名拥有数据科学学位的人,我了解幕后运作机制。从统计逻辑和误报到客户留存优化和战略透明度,我都了如指掌。
作为创作者,我觉得这种缺乏清晰度的情况令人沮丧。
作为参与甄选过程的申请人,我目睹了同样的模式:千篇一律的回答和不透明的决定。
归根结底,这一切都围绕着规模、风险和激励机制展开。
我个人没有任何情绪,但这并不意味着我保持中立。
或许最重要的问题不是“为什么会发生这种情况?”,而是“我们想要维持什么样的制度?”
是的,它仍在营业。




留言