
在数据为“王”的时代背景下,由于本应协同合作的多个信息系统之间存在功能上的非关联性与信息的非共享性,导致无法直接交换数据,从而形成了“数据孤岛”现象,严重阻碍了数据要素市场化建设。同时,互联网和移动互联网的迅猛发展,进一步加剧了数据的碎片化问题,使得跨平台、跨领域的数据整合与利用变得更为复杂。
广道数字基于数字对象和联邦湖仓架构的湖仓一体技术
在应对大数据时代挑战的过程中,广道数字凭借前瞻性的技术视野,提出了基于数字对象和联邦湖仓架构的湖仓一体技术。这一创新技术结合了联邦学习在用户隐私安全方面的技术优势与数据湖仓在数据治理与深度分析的能力,有效打破了数据孤岛,实现了跨组织的数据共享与分析。通过连接多个数据湖仓,湖仓一体技术构建起一个统一的数据平台,使企业能够轻松地访问、查询、分析和挖掘不同来源的数据,为企业未来的数字化转型和业务创新提供了有力支持。随着技术的不断发展和应用的深入,联邦学习作为一种解决数据孤岛问题的有效技术,已经在多个行业中得到了初步应用。
联邦学习基本概念
联邦学习(Federated Learning)本质是一种分布式机器学习框架,它能够在保障数据隐私安全及合法合规的前提下,实现数据共享。其核心思想在于,当多个数据源共同参与模型训练时,不需要进行原始数据的流转,仅需通过交互模型之间的参数进行模型的联合训练,从而确保原始数据可以留在本地。
联邦学习的出现打破了传统机器学习的集中式数据训练模式,同时,各组织、机构、设备间的交互被以保护隐私为目标而精心设计,使得联邦学习应用可以在保护隐私的前提下,完成多方数据联合建模的任务。这种方式实现了数据隐私保护和数据共享分析间的平衡,即“数据可用不可见”的数据应用模式。
联邦学习的技术优势
传统的机器学习需要将数据汇聚到中心后才可以进行模型训练,同时,随着数据量的增加,应用成本也会相应上升。此外,数据一旦离开其原始环境(即出域),将会变得难以管理和控制,从而导致数据隐私泄露,埋下数据安全隐患。
相比之下,联邦学习能够助力多个机构共同构建一个统一、安全、高效且合规的多源数据应用生态系统。通过实现跨机构的数据融合共享,联邦学习为大数据应用提供了精准、安全、高效的人工智能模型构建基础,从而提高了大数据服务的质量,为经济社会的发展创造出更多的价值。
传统机器学习和联邦学习的对比
联邦学习的应用前景
1.政务开放。在政务数据开放共享的过程中,因缺乏有效的隐私安全保护技术,数据共享后无法限制数据用途,导致出现了数据滥用和隐私泄露等问题。联邦学习应用可以与大数据开发组件集成,实现数据资源的定向使用,打破政府部门的数据孤岛,提升政务服务的效率和质量,增强政府的透明度和公信力。
2.智慧城市。智慧城市的核心是通过数据驱动城市治理,但由于各机构、单位对数据安全共享的严格管控,数据难以融合互通。利用联邦学习,各机构、单位可以形成联邦协作,共创联邦学习模型,在确保数据安全的前提下,充分发挥数据的最大价值,助力智慧城市的构建与发展。
3.金融应用。对于分别分布在银行、电子商务平台和用户的私人社交网络中的信息,联邦学习可以为其构建跨企业、跨数据平台以及跨领域的大数据和AI系统提供良好的技术支持,保障多方在合规的基础上进行深度合作,同时也为金融行业带来了新的业务模式和增长机会。
4.数字广告。数字广告产业链由于涉及广告主、流量平台、消费者以及诸多第三方等多方参与,因此数据分散且互通性差,导致数据孤岛现象严重。联邦学习可以提供加密的分布式机器学习技术,让各方在不披露底层数据和保持数据加密(或混淆)状态的前提下,遵循隐私安全法律法规,建立出虚拟的共有模型,提高各方的合作效率。
5.医疗应用。基于生物医学的算法或统计研究需要大量的样本,单一数据源很难满足海量的数据需求。联邦学习应用可以提供多数据源医疗数据共享平台,在保证数据源隐私安全的情况下又能够实现数据价值的共享。
联邦学习作为兼顾数据协同和安全隐私的新型技术,是保障数据有序合规流通的基础要素。其为各行业打破数据屏障提供了新的思路,实现了以保护数据安全为前提的多方互利共赢。产业链上下游应凝聚共识,加强对于个人信息保护和数据安全的重视,积极探索联邦学习在垂直行业中的应用案例,形成行业示范,加速联邦学习行业应用场景的探索。期待在不远的将来,联邦学习可以在许多关键的开放性问题上取得显著进展,将人工智能的益处惠及至社会的每个角落。
部分内容来源:中国信息通信研究院
原标题:中国信通院发布《联邦学习场景应用研究报告(2022年)》
说明:转载此文目的为传递更多信息,文章内容仅供参考