联邦学习与大数据隐私专场

这个专场对于我来说，算是一个扫盲性质的，听了几个讲座后，大概知道联邦学习是一个什么样的模式了。

杨强是港科大的教授，微众银行的高管。他对联邦学习的介绍还是很清晰的：https://www.leiphone.com/news/202008/hBACeSbAY8PIOcbh.html

联邦学习的背景是1.数据的来源碎片化，且难以标准化，2.数据的合规性要求限制了中央处理。

比较典型的例子就是视觉识别和语音识别，来源分别是不同场景不同数据源，所有权/隐私法的限定，这些视频和音频是不能离开其拥有者的。

然而2B业务的核心数据有其重要的价值，因此联邦学习会采用横向或纵向的方式，将数据进行维度相同/ID集相同的本地学习，而引擎则数据在哪则跑到哪。

原先迁移学习只是出于算力分布的问题，而将学习地点进行分布，联邦学习则是在迁移学习的基础上增加了考虑隐私的部分。

但数据或处理后的数据总要出来，就需要有加密的方式，以避免联邦学习的合作方进行窃听。

京东的薄列峰，提出了京东的联邦学习的框架。分布式的机器学习，如何传递梯度时避免被攻击，比如挑出不影响隐私的数据来传递。还有就是不破坏原域特点的同态加密。

联邦学习的各节点之间，既考虑通讯效率，也考虑数据安全。

其创新上的贡献：实现了快速安全的异步并行纵向联邦随机梯度算法。实现了大规模、高速、安全的基于核方法的纵向联邦学习。

第四范式的涂威威先从机器学习讲起，现在的机器学习的目标应是工程化的效率问题。但面临着的几大问题：

数据方面：有效的数据少，数据孤岛式分布，数据有隐私保护问题。

人才方面：人才门槛高，导致缺乏。

有效数据少的问题可通过迁移学习、举一反三的做法解决。而数据孤岛则是加强连接，隐私保护则推出联邦学习。

后面就是很多技术概念了，比如差分隐私，基于模型的数据隐私攻击，可信任环境下的特征工程和共同训练，同态加密算法，匿名化技术等等。

第四范式目前在做自动多方机器学习，也是初步的阶段。

创新工厂的冯霁，

模型安全对抗攻防：数据下毒——毒化训练

数据隐私保护机制：同态加密，多方安全计算（MPC），可信安全环境（TEE）

非独立同分布算法：联邦集成学习

去中心化的联邦学习架构

考虑节点补偿/联盟动机的经济学分析

后面几个我就没有继续往下听了。

瑰珀 & 休生伤杜