作者:Hamster@DX安全团队
前言
公开资源情报计划(Open source intelligence ),简称OSINT,是美国中央情报局(CIA)的一种情报搜集手段,从各种公开的信息资源中寻找和获取有价值的情报。通常在实施攻击之前,公开资源情报计划(OSINT)是我们收集信息的首选技术。在本文中,我们围绕OSINT的定义、开源工具、搜集、来源等方面进行详细介绍。
“不一定只有保密信息才有价值。” ——中央情报局
一、定义
目前,对于公开源情报的理解不尽相同,还存在着多方的解释,本文主要列举出几个权威机构给出的各有侧重的定义。
1. OSS研究院
公开源情报是指为特定用户解决某一问题而从报纸、书籍、学术和技术刊物、政府公报、广播、电视和互联网等公开的多语种(Multilingual Sources)与多媒介( Multime-dia Sources)渠道,以合法且合乎道德伦理的手段获取的信息,并对这些信息加工处理后得到的情报。它伴随着整个隐秘的国家情报流程,包括:需求分析、搜集管理、来源验证、多源融合以及报告陈述等环节。
OSS,全称Open Source Solutions Academy。其定义可见在情报流程中,私密源和公开源是相结合的,开源情报有助于全源情报产品的生产,特别强调运用符合法律约束和道德伦理的信息获取方式。因此,相对于人力情报或信号情报,开源情报的信息搜集不需要私密的手段,但是必须建立在版权授予和商业需求的基础上。
2. 美国国会
2006财年在其通过的《国防授权法案》( National Defense Authorization,Act)中明确提出概念 :
开源情报是指,为了响应特定的情报需求,通过搜集和利用公开可得信息而进行情报生产,并及时地分发给适当的受众群体.
在美国陆军野战条例第FM2-0号《情报》的“陆军情报流程”一节中,也有类似于美国国会的定义。美国国会的定义展现出开源情报的本质,是一种由公众公开的信息,但是在情报流程各阶段的作用下,这些信息能被转化成情报用于应对目标用户所提出的特定需要。开源情报的主要特征如利用公众资源、信息处理和最终情报产品发布的必要性也在这个定义中得以阐明。
3. 北约组织
北约在《公开源情报手册》中的定义为:
开源情报是为了响应而进行的谨慎细致的信息发现( Discovery)、鉴别( Discrimination)、浓缩 ( Distillation)、分发( Dissemination)。也就是说,将广泛多样的公开来源信息运用到情报论证分析过程中,从而产生情报。
相较于美国国会的定义,北约组织将开源情报的地位提升到情报科目的水准,并将其看作基本置于其他情报科目之下,见下图。然而,两种定义也存在着相似之处,即面向特定的情报用户以及整个工作流程的循环往复。
4. 其他定义
开源情报是一个情报门类,美国法典在其第50卷《战争和国防》将开源情报定义为:
面向一定的用户群体,以获取情报为目的,从公开各类型信息中及时采集、分析和分发情报。
美国国防部(Department of Defense,DOD)和中央情报局(Central Intelligence Agency,CIA)也曾给出过关于开源情报的解释:“广大公众都可以获得的具有潜在情报价值的信息”;“公开情报是指从外国媒体广播、出版物和商业数据库中搜集公开信息,并对这些信息进行处理后所获取的情报”。
曾任李克农秘书的罗青长在《情报学概论》中指出,开源情报是指:“为满足情报工作的需要,通过公开途径,从公开的资料或消息中搜集和使用的情报。”
由上可以看出,尽管细节描述各不相同,但是各机构对开源情报的定义,从根本上是一致的。基本包括以下几个方面:一是特定的服务对象;二是获取情报目的性非常强;三是来源范围明确为公开来源;四是确立了“采集-分析-分发”完整的情报活动过程。
二、开源情报特点
随着互联网、媒体等公开来源的信息成几何级数增长。较之传统情报,开源情报更加全面综合且系统化,更能够显示变化的趋势和规律,网络时代的到来使情报源变得复杂、巨大。
开源情报收集一般通过监控、数据挖掘和研究来完成,并贯穿于人力情报、地理空间情报、信号情报、技术情报等之中。
开源情报具有以下几个特点:
一是低成本,尤其是在动用传统人力等情报能力无能为力的情况下,运用开源可以为情报分析人员提供有益的启示或向导,支持决策者或指挥员计划活动,也为人力情报、信号情报等其他类型情报提供了一个有力的补充。
二是低风险,开源情报分析人员可远离危险环境展开行动,利用开源情报能解决问题的,就没有必要动用风险性很高的人力情报手段。
三是高收益,美国中央情报局认为,开源数据在最终全源情报产品中占40%,加拿大安全与情报局局长沃德·埃尔科克(Ward Elcock)先生认为,开源在最终全源产品中的比重占约80%。
随着科技的快速发展,特别是信息技术与网络技术的快速发展,开源情报的作用正日益显现其重要性。
谁能抓住历史的机遇,深刻理解情报的核心功能并将其融入到科技等变革中去,那么不仅仅是在经济战场上,更重要的是在国家安全战线上,谁就能将占据主动。
三、渠道来源
在互联网之前,开源情报的主要来源是图书、杂志、广播电视电台、新闻媒体以及政府和民间机构公开的信息和数据等。在互联网诞生及逐步发展后,开源情报的情报源一是包含了上述传统情报源的网络化产品;二是以谷歌地球为代表的地理空间情报网站及服务;三是诞生了网络社区这一新型情报对象:社交媒体网站、视频网站、维基百科网、博客、论坛、甚至购物网站。
并且在以往,许多国家的情报组织和情报人员都承认,他们获得情报的大部分来自于公开渠道:报纸、杂志、书籍、公开发行的政府出版物、商业性出版物、产品资料、专利资料、音像资料以及广播、电视等。
美国中情局第五任局长艾伦·村勒斯说道:“公开渠道来源的情报是从报纸、书籍,学术和技术刊物、政府公报、无线电广播和电视等方面搜集的。即便是一本小说或者是一个戏剧,也可能包含着关于某个国家的有用情报。”
哥伦比亚大学教授罗杰·希尔斯曼对克格勃(全称“苏联国家安全委员会”)从公开渠道搜集西方情报的事实作过深入研究,说道:“关于经济和科技情报,在西方,大部分可以从公开或半公开的来源搞到手。因此,克硌勃完全可以用简单的手段获得所需情报的75%到90%。”
在2018年ISC互联网安全大会时情报与网络安全专家、以色列8200部队原情报分析主管、Recongate有限公司副总裁Roy Zinman做了主旨为“人工智能与开源情报的第三次变革”的分享,他表示,社交媒体上的海量个人数据已成为开源情报的重要来源,而人工智能是数据处理的重要工具。过去,开源情报是整理来源于电台、报纸、政府网站中内容而得到的信息,现在,开源情报还来源于博客、社交媒体和讨论组等。
2008年12月5日,《美国陆军战场手册2-22. 9———公开源情报》(FMI 2-22. 9 Open Source Intelligence)手册中对众多获取渠道进行了分类,大体上分为以下五大类:
- 学术机构:学术机构是指由政府指导、社会各界支持、自我组织、自我发展的专门从事高科技学术研究与交流活动的非营利性团体,这种团体就叫学术机构。此渠道一般涉及到公开已披露以及公开的正在研发或筹备项目的科技以及研发层面的情报。
- 政府及政府间和非政府组织:在这里,可能对非政府组织较为陌生,并不清楚真正指什么。其实非政府组织,在现实当中还演绎出接近几十种不同称谓,如第三部门、非营利组织、公民社会组织、独立部门、慈善部门、志愿者部门、免税部门、草根组织等等。我国根据特定目的形成的习惯代称是民间组织,虽然表称不一却实质类似或者相同。此类渠道一般涉及到公开政务文件、相关利民措施、军事动向等等已经在官方渠道或者媒体渠道所公开的信息。
- 商业和公共信息服务机构:商业机构即商业性金融机构,是按照现代企业制度改造和组建起来的,以营利为目的的银行和非银行金融机构,它们承担了全部商业性金融业务。在我国,主要包括金融机构和非金融机构,我国银行金融机构主要包括国有独资商业银行、其他商业银行、农村和城市信用合作社。非金融机构包括保险公司、信托投资公司、证券公司、财务公司、金融租赁公司等。此类渠道一般包含了相关金融利率、汇率、存息动态、保险条例、业务渠道、金融信息等等。
- 图书馆和研究中心:图书馆,是搜集、整理、收藏图书资料以供人阅览、参考的机构,有保存人类文化遗产、开发信息资源、参与社会教育等职能。研究中心是国家科技创新体系的重要组成部分,以提高自主创新能力、增强产业核心竞争能力和发展后劲为目标的相关机构。图书馆作为国家最大的信息中心,包含了历史以来几乎所有的公开信息,已成为开源情报的重要来源渠道。
- 个人和团队:在这里,个人和团体也成为必不可少的情报来源渠道。个人在社会中的职能不同,会产生很多不同的角色,由此产生的信息便各不相同,所带来的信息也是多样化。而团队作为无数个人的整体组织,产生的信息量由个人的多样化偏向于全面化。此类渠道涉及到的情报相当广泛,可以说,个人和团队是以上四种渠道的基本组成。
我们注意到,开源情报来源还可以做如下分类:
- 媒体:报纸、杂志、电台、电视节目、基于计算机的信息。
- 网络社区和用户创造的内容:社交站点、视频分享站点、维基百科、博客、通俗分类。
- 公开数据:政府报告、官方数据、预算、人口统计资料、听证会、立法辩论、新闻发布会、演讲、海洋和航空的安全警告、环境影响图片、合同签订。
- 观察和报告:利用业余观察家们的成果,如某些人通过对谷歌地球进行标注、上传某一地区的照片,从而大量借此扩展出了许多有价值的情报信息。
- 专家和学者:会议、研讨会、专业组织、学术论文、专家。
- 地理信息数据:地图、地图集、地名录、港口规划、重力数据、航空数据、导航数据、人类分布数据、环境数据、商业影像、激光雷达、超多光谱数据、机载成像、地理名称、地理特征、城市地形、垂直阻塞的数据(VOD)、界标数据、地理空间聚合、空间数据库、web服务。许多信息都可以利用地理信息系统(GIS)进行整合、分析、聚合的。
四、分类
1、美军:
在分类上,国内外没有统一的标准。由于美国国会以及军方在最早研究OSINT的组织,所以通常下,美军将开源情报分为:战略情报、战役情报和战术情报三类。
第一类是战略情报。战略情报指国家与国际层面制定政策或军事计划所需要的情报。战略情报行动需要考虑整个国家,考虑数月后、数年后乃至更长远未来。主要涉及的信息可以分为以下九个方面:
- 人物传记情报:指当前及潜在的重要人物及其背景、人格等。包括:教育与职业经历;个人成就;爱好、习惯;职位、影响力与潜力;业务爱好与价值取向。
- 经济情报:包括:经济战;经济脆弱性;生产制造;经济实力来源。
- 社会情报:主要考察社会、社会中的团体及其构成、组织、目的、习惯与某些个人在社会组织中的作用地位。包括:人口、劳动力;人的文化、物质生活状况;公众观点;教育;宗教;公共健康与福利。
- 交通情报:即关于外国交通系统设施与运作的情报,包括:铁路;高速公路;水路、航道;油气管道;港口;商业海运;航空。
- 电信情报:即关于外国民用、军用固定通信系统设施及运作的情报,包括:无线电;电视;电话;电报;海底电缆;媒体。
- 地理情报:地理是一门描述陆地、海洋、天空以及动植物、人类、工业等分布状况的科学。地理情报则是对可能以某种方式影响军事行动的所有地理因素的评估。包括:描述;自然地貌;人造地貌;各部分名称;形地貌;人及文化地理。需要注意的是,如今此类情报很多的来源是Google Earth以及其他卫星地图的造影。
- 武装部队情报:即对外国有组织的地面、海上与空中部队(包括现有的与潜在的)进行的综合研究。包括:一个国家的战略性军事问题,涉及地缘政治、地形、经济、政治及其它因素,以及武器系统运用、各兵种各军种运用与行动、特种作战训练、后勤、编制、军事力量。
- 政治情报:政治情报是关于外国与国内政府政策以及政治运动的情报,包括:政府基本原则、国家政策;政府结构;对外政策;政治组织、政党;举程序;公共秩序与安全;颠覆破坏活动;情报与安全组织;宣传。
- 科学技术情报:即对外国科学技术能力及其通过开发新武器装备而支持其目标的潜力的研究与评估。包括:新式武器装备;导弹与太空;核、生、化;基础科学与应用科学。
第二类是战役情报。战役情报是指战区辖区内的地理资源、地区态势、社会因素、宗教构成、后勤保障等。
第三类是战术情报。战术情报指计划与实施战术行动所需的情报。战术情报行动应当与战场上的军事行动相适应,通常与敌直接接触,需要面对村庄、城镇或当地部族、民众。例如:地理空间信息、气象条件、民众心理、民事基础设施、交通网络、影像系统等。
2、知远所:
知远所是一家独立的战略和防务研究机构。研究所立足于防务动态和学术热点的追踪分析,着眼于长远性、战略性问题的深入研究,并为国家有关机构及决策者提供独立、客观的战略与政策建议。我在研究开源情报的时候,发现知远所有过如下分类:
- 征候和预警情报:征候和预警情报,也可以成为评估情报,通常是根据公开信息对国外进行综合军事能力、经济水平、民众因素、气候方面等等进行综合评估,而产生的预警情报信息。
- 现实情报:现实情报,顾名思义,结合现实情况(包括新闻资讯、公开声明、在网络中也包括了社交网络动态等等),通过一些实时的信息来综合考虑而产生的情报。
- 常规军事情报:这里与美军划分的三类情报类似,一般指军备基础、建设设施等基础信息的情报。
- 目标情报:军事打击对象物的情况和资料。是作战行动决策和选择打击方式方法的重要依据。按目标性质,分为军用目标情报和民用目标情报;按应用范围,分为战略目标情报、战役目标情报和战术目标情报;按国际法,分为允许打击目标情报和禁止打击目标情报。内容主要包括目标的精确位置、使用性质、价值作用、规模大小、构制材料、外部特征、内部结构、要害部位、防护措施、周围环境、地形地貌、气象水文等。
- 科技情报:当前,科技情报发展进入了新时代。科技情报的地位、影响、未来的发展模式都在发生着深刻的变化。科技情报对国家经济安全、国家军事安全、国家技术安全的支撑作用不断加大;与此同时,各国的科技情报获取与反情报获取的博弈也在加强。在美国《国家安全战略》中,将科技情报的用途进行强调:监测并破坏大规模毁灭性武器;基于来源监测和遏制生物恐怖;反网络犯罪;阻止和扰乱恶意的网络行为者;信息共享和感知;预测全球科技发展趋势。
- 预测性情报:预测性情报,又称为动态情报,具有动态性、预见性和超前性的特点。在取得过去和现在的各种市场情报资料的基础上,经过分析研究,动用科学的方法和手段,对未来动向进行预测而产生的情报。我国目前对此类情报逐步重视,而且此类情报多用于商业领域。
3、结合实际分类
研究显示,人类社会的信息量每两年增长一倍,全球范围内50%的人口已接入互联网,34%的人口活跃在社交媒体上。开源情报(OSINT)的来源已从传统的纸质媒体和电视广播,扩展至深度网络、商业图像、技术数据、灰色文献等等新兴信息源。
互联网正在成为继报纸、广播、电视之后的第四大传媒。互联网上信息的最大特点是,内容丰富,传播速度快,不受国家地域局限,人人都是信息的汲取者,也可以成为信息的提供者,而且是不加滤波的信息和真正水平传递的信息,从而成为侦探掘取情报的源泉和矿藏。
因此,我在这里把开源情报分类两大类:
- 传统情报:传统情报,可以称为第一代开源情报。主要渠道来源有报纸、杂志、书籍、公开发行的政府出版物、商业性出版物、产品资料、专利资料、音像资料以及广播、电视等。
- 互联网情报:我们也可以称为第二代开源情报时期。研究人员认识到,在90年代个人电脑的兴起,也是开源情报产生的时期,产生了巨大的影响。2009年的伊朗绿色革命等事件就是生动的例证。第二代开源情报的起点可以追溯到2005年,当年开源中心(Open Source Center)成立。在此期间,互联网也在发生变化,大量的在线内容转移到动态网页、用户生成内容和社交媒体上。这种过渡常常被描述为Web 2.0的出现。互联网情报在开源情报的新生产物,对于传统的情报研究人员以及情报机构是新的挑战与机遇,互联网每天产生的信息量无法估计,多数开源情报的获取会通过社交网站、媒体资讯网站、政府网站、公开信息服务机构的查询功能等等。
五、开源工具
1、Google
搜索引擎确作为互联网中最常用的功能,它们收集了几乎所有可以公开访问到的信息并且进行了索引,我们通常可以通过这些信息收集有关目标的信息。
- intitle:查找页面标题中提到的单词。
- cache:用于查看网站历史缓存信息。
- inurl:搜索得到你搜索内容的网址。
- filetype:用于查找文件类型。
- ext:这用于识别具有特定扩展名的文件。
- intext:这有助于搜索页面上的特定文本。
例如:在谷歌中输入site:360.cn filetype:pdf,就能得到360.cn网站上的所有PDF文档。
2、AVL Insight开源情报工具
AVL Insight 开源情报工具是安天移动安全推出的一款情报收集工具,它是配合AVL Insight移动威胁情报平台的Chrome浏览器扩展程序,用户可以使用该工具,对网站中的公开信息进行收集整理,并对关键信息点进行结构化提取生成自定义情报,从而形成自己的公开情报库。
基于移动威胁分析人员收集情报的需求而产生,以公开情报的收集和管理为目标,具有自定义情报、关联搜索、情报管理、情报导出等功能。AVL Insight 开源情报工具的出现将大大减少以往分析人员收集情报时的重复性工作,有效提升分析人员的工作效率。
在写此文的时候,此插件在Chrome应用商店中已经无法搜索到。不再进行详细说明。下面是安天官方的截图。
3、Shodan
Shodan可以说是互联网上最可怕的搜索引擎。与谷歌不同的是,Shodan不是在网上搜索网址,而是直接进入互联网的背后通道。Shodan可以说是一款“黑暗”谷歌,一刻不停的在寻找着所有和互联网关联的服务器、摄像头、打印机、路由器等等。每个月Shodan都会在大约5亿个服务器上日夜不停地搜集信息。
工作流程:Shodan通过扫描全网设备并抓取解析各个设备返回的 banner 信息,通过了解这些信息,Shodan就能得知网络中哪一种 Web 服务器是最受欢迎的,或是网络中到底存在多少可匿名登录的 FTP 服务器。其中Shodan上最受欢迎的搜索内容是:webcam,linksys,cisco,netgear,SCADA等等。
4、Maltego
Maltego是一个开源的漏洞评估工具,它主要用于论证一个网络内单点故障的复杂性和严重性。该工具能够聚集来自内部和外部资源的信息,并且提供一个清晰的漏洞分析界面。它内置在kali中,从功能的角度看,这个软件有几种用途:一是站长工具,站长可以用来检查某个网站的各种基础信息。二是社工工具,可以用来检索Maltego的各种数据库,从而发掘各种信息。三是用于情报分析,从数据的角度看,这些功能都源自Maltego的数据,有些数据,包括whois等网络数据,还是比较容易实时查询,但是其中涉及到的Flicker、MySpace、搜索引擎等数据,则需要提供较为高级的方式,特别是涉及到较多的数据调用和解析,需要专业研究。
Maltego允许枚举网络和域信息,如:域名、Whois信息、DNS名称、Netblocks、IP地址等;枚举person信息,如:相关联的电子邮件地址、网站、电话号码、社会团体、公司和组织等。
5、The Harvester
TheHarvester是一个社会工程学工具,它通过搜索引擎、PGP服务器以及SHODAN数据库收集用户的email,子域名,主机,雇员名,开放端口和banner信息。
- 官网:http://www.edge-security.com
- 安装:apt-get install theHarvester
- 运行:终端输入 theharvester
-d: Domain to search or company name -b: data source: google, googleCSE, bing, bingapi, pgp,linkedin, google-profiles, people123, jigsaw, twitter, googleplus, all -s: Start in result number X (default: 0) -v: Verify host name via dns resolution and search for virtual hosts -f: Save the results into an HTML and XML file -n: Perform a DNS reverse query on all ranges discovered -c: Perform a DNS brute force for the domain name -t: Perform a DNS TLD expansion discovery -e: Use this DNS server -l: Limit the number of results to work with
最常见用法:theharvester -d 域名|公司名 -b 搜索来源(google,bing,pgp,linkedin等)
6、archive.org
互联网档案馆(英语:Internet Archive)是一个非营利性的数字图书馆组织。成立于1996年,由Alexa创始人布鲁斯特·卡利创办。提供数字数据如网站、音乐、动态图像、和数百万书籍的永久性免费存储及获取。迄至2012年10月,其信息储量达到10PB。
其数据是由自带的网络爬虫自动搜集的,其网站典藏档案馆网站时光机,抓取了超过1500亿的网页。
7、Harpoon
Harpoon 是一种自动化威胁情报和开源情报任务的工具。它使用Python3进行编写,Git:https://github.com/Te-k/harpoon
安装和配置:
pip install git+ssh://git@github.com/Te-k/harpoon --process-dependency-links
npm install -g phantomjs
harpoon config -u
harpoon config
此工具可以结合一些情报平台,进行批量自动查询。
六、总结
到底什么是开源情报?简单而言,就是你能看到的信息都是开源信息,而可以利用的那部分信息就叫做开源情报。
长期以来,开源信息的价值一直被认可。但随着互联网的普及和社交媒体、大数据分析的兴起,开源情报已经发生了革命性的变化。对于一些曾经只能通过更危险和昂贵的传统情报收集平台获得情报的手段,开源的方法也有能力进行替换和补充。
随着科技的快速发展,特别是信息技术与网络技术的快速发展,开源情报的作用正日益显现其重要性。互联网和社交媒体的兴起使开源情报在来源和分析方法上更加复杂。个体正在以前所未有的方式提供信息,包括个人情感的在线表达,某个地方和事件的照片,以及公开的社会和专业网络。
伴随着技术的不断进步,由几十年前的人工分析情报和收集情报,如今已经开始使用机器学习、计算机算法和自动推理进一步扩大处理信息的能力,这些技术的使用,对情报价值产生了深远影响。
从情报作为流程和产品来看,开源情报相对于其他私密情报搜集科目主要的好处在于:快速、灵活性、多样化培训、低成本。
在我国,由于国内相关机构认知偏差、信息割裂、利益保护、过度保密等种种因素,在开展开源情报研究的过程中,存在着很多亟待解决的问题。国内机构相互之间缺乏有效的交流与协调机制,无法形成统一的规范与分析方法,甚至连这一最为基本的术语都无统一而明确的定义。
管子·侈靡说:
万世之国,必有万世之实。必因天地之道,无使其内使其外,使其小毋使其大。弃其国宝使其大,贵一与而圣;称其宝使其小,可以为道。能则专,专则佚。椽能逾,则椽于逾。能宫,则不守而不散。众能,伯;不然,将见对。
开源情报的开发与利用是一个长期的、持续的过程,开源情报的价值在互联网中越来越重要,我们始终相信随着近几年不断地研究与发展,国内也在逐步赶上国外的脚步。