您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
业界专题 正文
发私信给吴德新
发送

0

揭秘NSA PRISM项目的数据背后

本文作者:吴德新 2013-06-08 16:48
导语:关于美国国家安全局(NSA)与互联网公司们秘密合作获取用户信息的行迹已经引起了人们的高度关注。但是现在有知情人士透露:情况可能并没有表面看起来那么糟糕。NSA当然可以利用这些庞大的数据得到具有影响力甚至是破坏力的分析结果。但对于这些数据的使用方式和权限,他们有着严格

关于美国国家安全局(NSA)与互联网公司们秘密合作获取用户信息的行迹(不明真相的群众看这里)已经引起了人们——尤其是科技界——的高度关注。但是现在有知情人士透露:情况可能并没有表面看起来那么糟糕。

NSA当然可以利用这些庞大的数据得到具有影响力甚至是破坏力的分析结果。但对于这些数据的使用方式和权限,他们有着严格的规定。总之,NSA的这个项目最终是否导致恶劣的影响还有待盖棺定论。但现在,我们不妨看看是什么样的技术支撑起这个事件中庞大的数据?

什么是Accumulo?

Accumulo——NSA专门打造用于存储和分析庞大数据的开源数据库,是此次事件背后的关键技术。Adam Fuchs在过去9年中参与了Accumulo的研发;现在他是一家名为Sqrrl的公司的CTO和创始人——Sqrrl的产品是这套数据系统的商业版本。

Fuchs表示NSA在07年起就开始尝试使用自动化的分析来追踪和发现潜在的恐怖活动。现在,Fuchs表示,NSA数据中心“正运行着上万节点的规模”。其中有众多的机器存储着P级的数据(1P=1000T=1,000,000G),同时这些机器也作为后台支持着NSA大部分的数据分析能力。Accumulo支持多种格式的数据,这也就意味着NSA能在数据库中存储多种来源的数据,同时如果有必要,他们可以很快地扩充自己的分析能力。

对于这些数据,NSA会做什么,不会做什么?

就像前面解释到的,Accumulo尤其擅长于分析庞大的数据从而生成众多的图表用于发现和强化这些数据间的连接。Fuchs并没有提到NSA数据图谱的规模,但他表示系统可以管理数月甚至数年的信息,同时在处理数据请求上非常迅速。比如说到通话记录的分析,它能轻易发现可疑恐怖分子的通话网络以及涉及的参与者。

Stewart Baker,布什在任时期NSA的法律顾问曾发文表示:这些数据也可以用做行为模式的识别——类似于当下流行的精确打击式的广告。唯一的区别在于,这套系统旨在发现那些“在某个特定时间段打向也门,并在几秒钟之后迅速挂断,随后马上有一个不同的也门号码拨入”的美国用户;而不是那些搜索和浏览特定商品的普通人。NSA会通过已掌握的恐怖分子的活动数据来跟嫌疑人比较匹配,来决定是否需要进一步的行动。当然我们在这里提到的Baker的例子只是一个直接的比喻,NSA所做的事实上要比这复杂很多。

这就是在类似PRISM这样的项目中,NSA对从Google、Facebook采集到的数据所做的。

NSA采集的数据规模究竟有多大?

这个问题,答案是钱说了算。我们并不能完全确认本周NSA被爆出的两个项目的数据规模,但证据表明至少在数据容量上这不会非常非常大。据Washington Post披露的PRISM每年2千万美刀的项目资金,这个数目恐怕很难覆盖存储所有原始数据产生的费用(Google、Facebook、Microsoft、Apple、Yahoo、AOL...),更不要说由这些数据产生的分析数据。据笔者所知,Yahoo每年在运营其Hadoop环境中的花费就超过1亿美刀,而且这是几年前的数据了。Facebook用户每天生成的新数据超过500T。所以对于传闻中NSA与众多的互联网公司合作,它也只能选择有限的一部分来存储分析。

Via: gigaom
相关:
Google等巨头否认向FBI提供用户信息

雷锋网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情

丛林猎手

新智驾频道,专注自动驾驶产业链和汽车智能化技术的第一线报道,试图理解汽车行业的未来。欢迎加微信foolwdx交流,公众号(Ai-Drive)。
当月热门文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说