安永：在全民与人工智能对话的时代，数据安全面临哪些挑战？| 观点与方案

佚名来自：安永次 2023-03-24

安永：在全民与人工智能对话的时代，数据安全面临哪些挑战？

本文将对数据安全风险群体及场景进行分析，并结合数据安全及隐私保护相关的法规要求及行业最佳实践，从管理和技术两个层面分享我们的观点与建议。

引言

人工智能的高速发展及应用，使我们正在步入人工智能驱动的时代。大数据是人工智能技术研发和落地的基础，随着数据在各场景中被收集和利用，数据安全和隐私保护面临着巨大的风险与挑战。

cnbeta_abstract_consulting_linecirclechartand_view_2c0c1596-c193-46f1-9084-d1965c31293e.png

一谁在面临人工智能带来的数据安全挑战？

（一）学生

人工智能技术已成熟的应用到了学生的日常学习中，在线课程门户Study.com对1000名美国大学生进行了调查，调查结果显示美国大学约89%的学生使用智能对话机器人完成作业，53%的学生使用其撰写论文，48%的学生使用其完成考试。为了避免学生过于依赖此类工具，防止作弊，多个国家的学校已经开始禁止学生使用。

（二）企业员工

随着人工智能技术在企业的应用与普及，企业的涉密人员正在成为数据安全风险的主要群体，与智能对话机器人分享的机密信息可能被用于未来人工智能模型的迭代训练，这将可能会导致该模型输出的内容可能包含机密信息，例如用户隐私数据、企业机密数据等，从而造成敏感数据泄漏的风险。

►2022年11月，某国际大型电子商务公司律师就警告员工不要与智能对话机器人分享机密数据，因为这将会被其用来作为迭代训练的数据。

►2023年1月，新一代人工智能对话机器人母公司一名员工在内部论坛上询问是否可以用智能对话机器人工作时，其首席技术官办公室的一位高级程序员回复，只要不与其分享机密信息，是可以被允许的。

二人工智能带来了哪些数据安全风险？

（一）隐私合规风险

目前智能对话机器人的使用条款尚不明确，其中虽然会提示用户将收集使用过程中的信息，但并没有说明收集信息的具体用途；虽然承诺删除所有个人身份信息，但未说明删除方式。这将会为人工智能企业带来合规风险，同时为用户带来个人信息泄露或滥用的风险。

例如根据GDPR第17条，个人有权要求删除其个人数据，即“被遗忘权”或“删除权”。然而事实上，在用户要求时从训练模型中完全删除数据是很难做到的。并且考虑成本问题，人工智能企业也不太可能每次在用户要求删除某些敏感数据后重新训练整个模型。因此人工智能获取到的数据，被训练成了模型就如同黑箱一般存在，自动化的过程难以完全删除痕迹。

（二）个人信息泄漏

1、用户使用场景：用户与智能对话机器人交互过程中，可能会提供个人敏感信息，包括姓名、电话、地址等，还可能包括用户的心理状态、偏好等其他个人信息。收集到的个人信息可能以实名或匿名的形式，流向模型的开发者、数据标注团队。这些数据有可能没有进行人工过滤及标注，并在输出时可能包含这些个人信息，从而使其他用户可能获得这些数据。

2、模型训练场景：用户和智能对话机器人的所有交互数据都会被记录、分析。通过我们向机器人的不断提问和机器人的不断输出，它们会得到充分的训练，会更加全面地了解用户，这将会引发不法分子对用户信息买卖的风险，从而实现精准营销的商业目的。

（三）编写恶意软件

根据美国OpenAI的评估，智能对话机器人通常只有37%的机率会给出正确代码。除了存在无法运行的Bug外，基于AI编写的代码可能引入漏洞。相关人员通过研究智能对话机器人在89个场景中生成的代码，发现有40%的代码存在漏洞。如下图中生成的Python代码，由于将参数直接拼接进SQL语句中，会导致存在SQL注入的风险。

目前已经有犯罪集团提供恶意软件服务，攻击者借助人工智能带有漏洞的代码发起网络攻击可能会变得更容易。人工智能的代码漏洞将赋予甚至经验不足的攻击者编写更准确的恶意软件代码的能力，将加速恶意软件的开发。

（四）数据源投毒

模型训练的数据通常来源于公开获取的内容，如果数据源被攻击者控制，并且在数据标注时未能识别，攻击者可能通过在数据源中添加恶意数据，从而干扰模型结果。对于数据源较为单一的场景，投毒的可能性更高。

（五）网络钓鱼

攻击者可借助ChatGPT（美国OpenAI研发的大型预训练语言模型）等生成式AI技术轻松绕过安全控制，并生成以假乱真的网络钓鱼电子邮件，而无需任何编码知识和犯罪经验。攻击者能有效地将普通钓鱼的数量与鱼叉式网络钓鱼的高收益结合起来。普通网络钓鱼的规模很大，以电子邮件、短信和社交媒体帖子的形式发送数百万个诱饵。但这类通用的形式，容易被发现，因此回报较低。鱼叉式网络钓鱼利用社会工程，创建具有更高回报的具有针对性的定制化诱饵，但因需要大量的人工投入，因而数量较少。借助ChatGPT生成网络诱饵，攻击者就可以实现事半功倍的效果。