设计负责任的人工智能系统

用于批准或拒绝住房贷款申请的自动系统是否会有种族偏见？
警察使用面部识别系统来抓捕犯罪嫌疑人是否合理？
开发人员能否收集用户数据以训练和改进视频会议中的语音识别系统？

在人工智能伦理和社会责任的问题上，科学和工程界总是会发现自己处于一个微妙的位置。一方面，我们有理由认为物理学定律或数学方程式本身是价值中立的，它们对人类的道德问题保持沉默。另一方面，科学不会在一个抽象的虚幻世界中运作，脱离科技知识在人类活动中的实际应用情形，工程当然更不能在这种世界中实施。所有人类活动都会带来道德和伦理方面的影响。因此，工程师应承担社会和道德责任，这是合理要求。但是，如果不考虑我们创造的系统将如何支持或破坏隐私、安全、能动性和公平等关键权利，我们就不能成为负责任的工程师。机器学习以及由数据驱动的人工智能的兴起，进一步加剧了人们对技术在社会中所扮演的角色的广泛关注。

如何才能将人工智能的伦理问题放在首位，并建立一种负责任的道路来构建机器学习系统？

我们应该先了解一下基于机器学习的设计所涉及的事宜，以及为什么机器学习会成为争议的根源。机器学习的核心思想是，具体功能不是由一段软件代码描述的，而是从一系列预期行为的示例中归纳出来的。我们可以通过将一系列输入和目标输出相结合来明确地准备训练数据（即“监督学习”），也可以进行隐式或连续预期结果的训练，方法是要么将预期结果隐含在输入数据中（即“无监督学习”），要么通过对一系列成功输出采用奖励指标来实现（即“强化学习”）。通常情况下，从训练中习得的行为模型将作为一个基础功能，用于所部署的“推理”系统中；用户的真实输入流入该模型，因此系统可以计算出与从训练中习得的行为模式密切吻合的结果。在我们考虑负责任的人工智能时，在基于机器学习的功能中哪些人工智能伦理问题值得思考？在某种程度上，基于机器学习的软件与通过传统程序化编程方法开发出来的软件并无明显区别。我们关心所有软件中的偏见、隐私、公平、透明度和数据保护问题，然而机器学习方法尚未获得广泛理解，它需要大量的训练数据，而且有时候需要更容易理解的解释。这些特点要求我们仔细研究人工智能伦理在这场变革中发挥的作用。

要制定负责任的人工智能设计原则，需思考一些关键问题

以下是一些重要的人工智能伦理核心问题。可以说，这些问题往往相互重叠，但是从以下几个角度审视负责任的设计将大有裨益：

偏见：功能在对待不同的人时是否产生了不公平、不经意或不适当的偏见？系统的设计和训练是否针对实际应用用户的分布情况？设计、实施和测试是否会防止对受法律保护的个人特征产生偏见？
隐私：功能的训练和运行是否要求个人披露比实际需要更多的个人信息，是否充分保护这些私人信息不被未经授权或不适当地泄露？
透明度：功能的行为是否得到充分理解、测试和记录，以便采用该功能的系统开发者、用户和其他相应审查者能够理解它？实现的功能行为是否基本上具有确定性，因此重复相同的输入会产生相同的输出？
安全性：功能的训练和实施能否保护所采集的任何数据或产品不被不当地转移、滥用或泄露？这些数据可能包括还会引发隐私保护问题的个人信息，以及可能涉及所有权和合同约定的允许用途问题的非个人数据。
社会影响：除了在偏见、隐私、透明度和安全方面的具体问题，如果这项技术广泛部署，会对社会产生什么直接和间接影响？它是帮助还是阻碍了思想交流？它是否会增加暴力或虐待的可能性？它对环境有害吗？我们有意让这一类人工智能伦理问题成为开放式讨论问题，因此我们不能期望任何设计和部署团队能完全理解他们的工作的所有间接影响；尤其是多年中他们的工作成果在世界各地广泛采用的情况下。然而，努力预测长期负面影响的举措可能会激励团队在工作中设计相关缓解措施，或将技术策略转向具有较少明显社会弊端的替代策略。

这份人工智能伦理问题清单乍看起来过于模糊和抽象，不具有可操作性，但是业界已经成功部署了开发指南，特别是在系统安全和数据隐私方面，可以作为一个有用的模板。思科在数据安全系统设计方面长期处于领先地位，使思科数据安全系统设计框架自然成为 Webex 在机器学习系统方面相关工作的起点。欧洲《通用数据保护条例》(GDPR) 也提供了一个保护“自然人的基本权利和自由”的框架，可能提出了一些适用于基于机器学习的系统的有用原则。

支持人工智能和伦理的其他注意事项

在思考有意识而负责任的人工智能系统设计时，我发现在理解工程师的社会和道德责任方面，以下三个概念特别有用，我们应牢记在心。

一个负责任的机器学习开发流程。机器学习的潜在应用前景如此广阔，我们无法指望规定一个通用的开发流程。模型类型、训练系统、评估指标和部署目标的创新速度如此之快，任何狭隘的解决方案都会被立即淘汰。相反，我们希望制定有明确检查点的人工智能道德指南；在这些检查点，开发者本人和其他人都会检查自己的工作，确认是否考虑了所有关键问题，是否妥善记录了关键设计选择。这还可能涉及，在部署之前，系统必须通过一些具体的测试。
考虑后果。设计者和实施者需要清楚地了解人工智能的伦理，以及所训练系统习得的决策的影响。他们必须接受这样一个理念：机器学习功能经常会做出对用户或其他下游个人有实际影响的决策。有时，这些决策相当重要和明确，比如，是接受还是拒绝住房贷款申请？有些决策则很微妙，但仍然会带来普遍影响。例如在视频会议系统中，如果学习到的语音增强功能将普通女性的音量相对于男性同事降低了 2%，它可能会产生隐蔽的累积效应，从而减少女性在工作场所的影响和贡献。
训练数据和预期使用数据的统计差异。机器学习必须使用多样化的输入数据来训练系统处理所有预期条件。训练数据集的统计设计是最终系统的统计行为的最大决定因素。例如，对于语音系统，训练数据集指定的分布可能包括美国英语使用者、英国英语使用者、澳大利亚英语使用者、西班牙裔英语使用者，以及来自南亚、中国、欧洲大陆和其他地区的使用者的目标百分比。它还可能包括对高低音调的声音、不同年龄说话人的声音、在不同混响水平的房间里的讲话、不同类型和相对幅度的噪声的目标百分比。开发者应该对目标用户的分布有一个明确且记录在案的理解，并且应该构建训练和测试以匹配目标用途。此外，开发人员应该考虑到目标用户规范中可能缺失的东西，例如对受法律保护的特征（种族、国籍、性别、宗教等）的覆盖。这个问题并不简单，因为使用条件有很多潜在层面上的相关变化。开发者应该对更广泛的特征（相对于他们最初训练时的理解）进行测试，预计他们可能会发现对一些差异的敏感性，这就需要增加新的数据或改变分布，以便在所有目标使用条件下实现足够的性能。

负责任的人工智能设计仍处于起步阶段。我们还有很多东西需要了解，包括在保护偏见、隐私、透明度、防数据丢失和严重的社会影响方面存在哪些隐患。然而，在讨论、规范、培训、部署和维护中有意识地关注人工智能伦理，可以开始让这些威力巨大的方法变得可信和可靠，实现卓越成果。

立即注册，免费试用 Webex，优化您的团队协作和视频会议体验。

About The Author

Chris Rowen VP of Engineering Cisco

Chris is a Silicon Valley entrepreneur and technologist known for his groundbreaking work developing RISC microprocessors, domain-specific architectures and deep learning-based software.

Learn more