UpGuard 公司的一名安全研究员在今年2月28日发现,一家名为 LocalBlox 的数据公司将从公开网络资料中爬取的超过4800万名用户的详情暴露在公开可访问的亚马逊 Web 服务 (AWS) S3 存储桶上。LocalBlox 在接到研究人员通知的当天加固了对数据的安全保护措施。
UpGuard 公司在报告中总结称,“这个存储桶包含一个大小为 151.3 GB 的压缩文件,解压后是 1.2 TB 的 ndjson 文件。”从被暴露文件的文件名称 (final_people_data_2017_5_26_48m.json) 来看,它似乎是 LocalBlox在2017年5月26日所做的一个数据库备份。
数据源于 Facebook、LinkedIn 和推特网站资料
LocalBlox 在网站上声称能够通过“匹配工作生活和个人生活的个人数据生成综合情报”的方法提供“真正的360度人员视图”。
经过几周的数据分析工作后,UpGuard 公司表示,所发现的 LocalBlox 文档包含从多个站点如 Facebook、LinkedIn、推特和房地产站点 Zillow 上爬取的公开资料。
这个 JSON 格式的文件包含姓名、住址、出生日期、LinkedIn 上的工作履历、推特昵称,以及在一些情况下还包含 IP 地址和邮件地址。文件中还包含 Facebook 上的资料数据,而且从数据格式来看,UpGuard 认为数据可能是通过社交网络的搜索功能收集的,该功能能让用户基于邮件地址找到用户资料,不过由于 Facebook 最近遭遇剑桥分析公司丑闻而停用。
LocalBlox 似乎通过这个功能识别用户资料,然而收集用户公开资料中的详情。所收集的详情各不相同,可能包含姓名、图片、技能、目前的工作岗位、任职公司、家庭详情等等。
通过爬取公开资料收集数据
这起事件从本质上而言是一起数据泄露事件。LocalBlox 因将文件遗留在配置错误的 AWS 服务器上而导致数据泄露,只不过被暴露的数据是已知信息。
所有的数据似乎是通过爬取这些网站的 HTML 代码收集的,而不是使用 API。按照相关法律规定,API 是被锁定的而目的是为了阻止大规模爬虫。
Facebook、推特和 LinkedIn 还在公开网站的服务条款中包含阻止爬取公开页面的内容。但近年来,美国法庭在社交网络所提起的诉讼中支持数据爬取公司,指出发布在公开资料中的数据并不受版权或隐私保护法律的制约。
鉴于媒体对剑桥分析公司丑闻以及对第三方公司在未获得授权的情况下收集社交网络用户数据所带来的后果的密集报道,LocalBlox 公司似乎并未对 UpGuard 发布的报告坐视不管。
LocalBlox 公司的首席技术官 Ashfaq Rahman 声称 UpGuard 公司“黑掉”了公司的 S3 存储桶,表示多数数据是“捏造的”而且仅用于内部测试,而且除了 UpGuard 公司的研究员之外其他人并未访问这些数据。