AI存在隐私问题,但这3项技术可以轻松解决

后台-系统设置-扩展变量-手机广告位-内容正文顶部

人工智能的力量正在改变世界各行各业,如医疗保健、金融、零售、公共部门和互联网等。但是,隐私问题是人工智能亟待解决的挑战,尤其是在涉及合规性和法规方面。2017年,英国医疗服务体系(NHS)医院未经英国国家卫生局的同意,向 Alphabet(谷歌母公司)的DeepMind提供了160万患者数据。这些数据主要用于开发和完善一个智能诊断和检测系统,可以发现患者是否正处于急性肾损伤的风险中。但此新闻被曝光后,在英国各界引起了极大地反响,患者们纷纷谴责谷歌这种“盗窃”行为。

 

 

另外,包括苹果、谷歌和亚马逊在内的科技巨头,在AI隐私方面也受到了广泛关注,他们可能正在滥用录音来改善Siri和Google Assistant等人工智能助手。

 

AI系统的脆弱性

 

在大多数AI系统的核心处,由神经网络组成,而神经网络则由神经元组成。这些功能按层排列,然后将信号传输到其他神经元。这些信号从一层到另一层传播,并缓慢地“调整”网络,实际上是在调整每个连接点的权重。随着时间的推移,神经网络从数据集中提取特征并识别交叉样本趋势并最终学会数据预测。

 

神经网络不会摄取原始图像、视频、音频或文本。而是将训练语料库的样本数据转换为多维数组,例如标量(单个数字),向量(标量的有序数组)和矩阵(标量排列成一列或多列和一列或多行)。尽管进行了转换,但通常仍可以从神经网络的输出中识别出潜在的敏感数据。数据集本身也容易受到攻击,因为它们通常不会被混淆,并且它们通常存储在易于受到数据泄露的集中式存储库中。

 

到目前为止,机器学习中最常见的攻击为“隶属推理攻击”,其中攻击者(使用单个数据点或多个数据点)确定其是否属于训练目标模型的语料库。事实证明,从数据集中删除敏感信息并不意味着无法重新推断它,因为AI非常擅长重建数据样本。除非使用隐私保护技术,否则受过训练的模型很容易将数据泄露出去。

 

在一项研究中,威斯康星大学和马什菲尔德诊所研究基金会的研究人员,可以从经过训练可预测药物剂量的机器学习模型中提取患者的基因信息。在另一项研究中,卡内基·梅隆大学和威斯康星大学的研究科学家从多个面部识别模型中,重建了特定的头部图像。

 

与科技进步相比,数据隐私成为了用户更关心的问题。在美国的50个州和哥伦比亚特区,数百项涉及隐私,网络安全和数据泄露的法案正在等待立案或已经通过。其中最全面的是《加州消费者隐私法》,大约在两年前签署成为法律。其他的包括《健康数据可移植性和责任制法案》(HIPAA),该法案要求科技公司在披露个人健康信息之前必须寻求授权。欧盟的《通用隐私数据保护条例》(GDPR)等国际框架旨在更好地控制企业在数据方面的收集和使用。所以,在新兴技术中企业越来越关注用户的隐私问题,联合学习、差别隐私、同态加密这3项技术对于用户的数据起到了很好的保护作用。

 

1、联合学习

 

联合学习是一种在不交换数据样本的分散设备或服务器上训练AI算法的技术。先使用用户的设备下载当前的模型,然后用设备的数据训练这个模型,之后所有的改变都会总结为一个小的更新。最后,只有这个更新会被传到云端(使用加密通信的方式),并与其他用户的更新合在一起平均化,然后改善共享模型。所有的训练数据都保留在用户的设备上,云端不会存储单独的数据。目前,Google已将联合学习用于Gboard预测键盘中的个性化设置,用在成千上万的iOS和Android设备中。在Pixel4推出的同时,Google推出了“即时播放”音乐识别功能的改进版本,该功能以联合方式汇总歌曲的播放次数,根据不同地区来确定最受欢迎的歌曲以提高识别度。
 

2、差别隐私

 

差别隐私是密码学中的一种保护系统,旨在提供一种从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。当年苹果在发布“iOS 10”系统时便着重介绍了差别隐私这项技术。苹果通过使用差别隐私技术,使系统在不影响个人隐私的前提下,帮助发现大批量用户的使用模式。为了掩盖个人身份,差别隐私会像个人使用模式的小样本中加入数学噪音。随着更多的用户呈现出相同的模式,总体模式就会开始显现,这可以用来保护用户敏感数据。

 

差别隐私是统计和数据分析领域中的研究主题,利用哈希、分段抽样和噪声注入等方法,在实现众包学习时也完全保护了用户的个人隐私。苹果在这个技术方面做了很多非常重要的努力,来确保其可以进行大规模的应用。根据苹果的说法,差别隐私是一个统计学的概念,在试图更多分析了解一个群组信息整体趋势的同时,可以尽可能少的了解这个群组中的个体详情。利用差别隐私,苹果可以收集和存储其用户数据,并从中总结出用户们在做什么、喜欢什么、想要什么等,但同时又不会提取到有关该群体中任何可能会侵犯隐私的个人信息。并且在理论上,黑客或者情报机构也不可能提取到这些个体信息。

 

3、同态加密

 

同态加密并不是一项新鲜技术,早在2009年IBM研究员CraigGentry开发了第一个同态加密的保护机制。同态加密是一项基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。同态加密技术最优秀的地方在于,其关注的是数据处理安全。同态加密提供了一种对加密数据进行处理的功能。也就是说,其他人可以对加密数据进行处理,但是处理过程不会泄露任何原始内容;同时,拥有密钥的用户对处理过的数据进行解密后,得到将是处理后的结果。

 

在应用方面,IBM高级研究科学家Flavio Bergamaschi及其团队与一家美国银行进行合作,使用同态加密技术对机器学习处理流程进行加密。该机器学习处理流程是一个线性回归模型,拥有超过12个变量,它分析了来自账户持有人24个月的交易数据,以预测这些账户的财务状况,部分是推荐贷款等产品。由于客户的隐私和合规性问题,IBM团队对现有模型和有问题的交易数据进行了加密,并且他们使用加密和未加密的模型进行预测以比较性能。尽管前者的运行速度比后者慢,但准确性却是相同的。

未经允许不得转载:RPA中国 | RPA全球生态 | 数字化劳动力 | RPA新闻 | 推动中国RPA生态发展 | 流 > AI存在隐私问题,但这3项技术可以轻松解决

后台-系统设置-扩展变量-手机广告位-内容正文底部