联邦学习与大数据隐私专场

这个专场对于我来说,算是一个扫盲性质的,听了几个讲座后,大概知道联邦学习是一个什么样的模式了。

杨强是港科大的教授,微众银行的高管。他对联邦学习的介绍还是很清晰的:https://www.leiphone.com/news/202008/hBACeSbAY8PIOcbh.html

联邦学习的背景是1.数据的来源碎片化,且难以标准化,2.数据的合规性要求限制了中央处理。

比较典型的例子就是视觉识别和语音识别,来源分别是不同场景不同数据源,所有权/隐私法的限定,这些视频和音频是不能离开其拥有者的。

然而2B业务的核心数据有其重要的价值,因此联邦学习会采用横向或纵向的方式,将数据进行维度相同/ID集相同的本地学习,而引擎则数据在哪则跑到哪。

原先迁移学习只是出于算力分布的问题,而将学习地点进行分布,联邦学习则是在迁移学习的基础上增加了考虑隐私的部分。

但数据或处理后的数据总要出来,就需要有加密的方式,以避免联邦学习的合作方进行窃听。

京东的薄列峰,提出了京东的联邦学习的框架。分布式的机器学习,如何传递梯度时避免被攻击,比如挑出不影响隐私的数据来传递。还有就是不破坏原域特点的同态加密。

联邦学习的各节点之间,既考虑通讯效率,也考虑数据安全。

其创新上的贡献:实现了快速安全的异步并行纵向联邦随机梯度算法。实现了大规模、高速、安全的基于核方法的纵向联邦学习。

第四范式的涂威威先从机器学习讲起,现在的机器学习的目标应是工程化的效率问题。但面临着的几大问题:

数据方面:有效的数据少,数据孤岛式分布,数据有隐私保护问题。

人才方面:人才门槛高,导致缺乏。

有效数据少的问题可通过迁移学习、举一反三的做法解决。而数据孤岛则是加强连接,隐私保护则推出联邦学习。

后面就是很多技术概念了,比如差分隐私,基于模型的数据隐私攻击,可信任环境下的特征工程和共同训练,同态加密算法,匿名化技术等等。

第四范式目前在做自动多方机器学习,也是初步的阶段。

创新工厂的冯霁,

模型安全对抗攻防:数据下毒——毒化训练

数据隐私保护机制:同态加密,多方安全计算(MPC),可信安全环境(TEE)

非独立同分布算法:联邦集成学习

去中心化的联邦学习架构

考虑节点补偿/联盟动机的经济学分析

后面几个我就没有继续往下听了。