数据爬取成产业,私人定制化服务,你的信息正在悄悄被吞噬

来源:知道创宇2019.11.25

网络爬虫,又称网络机器人,可以代替人们自动地在互联网中进行数据的采集与整理。在分类上可分为善意爬虫和恶意爬虫:善意爬虫,他们遵守robots协议(告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取),规范爬取数据;但是对于恶意爬虫来说,他们忽视robots协议,对网站深层次的数据进行爬取,从而获取大量机密和隐私数据。爬虫在合法的情况下使用,可以减少单纯依靠人工进行信息采集所导致的工作流程繁琐、工作效率低下等问题。但是也有心术不正的人用来爬取用户隐私,然后将其包装成“高大上”的大数据出售给他人以便牟利。



三百六十行数据,可提供定制查询


在某交易平台上以“大数据采集”、“数据爬取”等为关键词进行数据搜索,就会出现许多以信息出售为业务的商家和个人,医疗、美容、食品、物流、金融、教育、招聘……三百六十行,每个行业的数据都可以进行爬取。除此之外,还可以为客户提供定制服务,代写爬虫软件,你想要的,只要能爬取到,就能为客户提供数据。从电商买家信息到电商店铺评价、从个人简历信息再到个人居住信息、贷款信息,无一不被爬虫爬取,根据爬取难度和数据内容的多少,价格不等。


南都记者曾经对某二手市场的爬虫数据交易进行调查时发现某商家数据采集收费为基本版的100元,普通版的200元,高级版的300元,如需制作客户端软件,费用另加,更加私密的数据可私聊。


非法网络爬取呈规模化运营,

某知名大数据公司被查封


在今年上半年,某科技公司的一位程序员被要求爬取某个招聘网站的用户数据,于是他自行编写了完美的程序,在未被授权的情况下利用大量的ip地址对该网站进行访问,导致网站经常宕机,管理人员通过排查发现某个接口被频繁访问,以为是遭遇了恶意攻击,于是报警。结果警方顺藤摸瓜找到了这位程序员所在的公司,全公司200人被“一锅端”,从那以后,许多简历下载网站都纷纷销声匿迹,而在最近几个月,又有多家大数据公司被查封。



如果你是一名网站的管理人员,是否经常会遇到自家网站被大量莫名奇妙的ip访问,而且还是有频率的进行,甚至有时访问量太多导致网站运行缓慢。要么可能被D了,要么可能就遇到了恶意网络爬虫悄悄地爬取你的网站信息。


前段时间在某技术论坛闲逛时发现有网友称自己公司的内网在近期被大量莫名其妙的ip所访问,访问时间间隔也有频率,还有来自国外的ip。按理说,内网都是内部员工使用,怎么可能出现其他ip地址呢,而且一天的访问量达到2000甚至更多。


不过从以上数据来看,很难说是遭遇了恶意网络爬虫,但是对于企业来说,做好反爬虫工作,防患于未然是一件相当重要的工作。


在没有反爬机制的系统上,恶意爬虫可360度无死角地对敏感数据进行窃取,商业竞争对手可用其对自身产品进行分析,制定出更有竞争力的产品;大量流量进行访问造成网站宕机,客户无法正常对网站进行访问;爬取过程中发现网站的漏洞,进而衍生出网站入侵。除此之外,网站上所存储的用户信息被不法分子爬取,还可能造成客户隐私泄露,影响企业声誉。


知道创宇机器流量管控服务数据盾,针对恶意爬虫、自动化工具,实时监测并进行态势分析,定制多种贴合业务实际场景的防护治理策略,降低恶意机器流量对网站业务的影响,提升安全性和稳定性。



多种治理措施并行

针对明显具有爬虫特征的访问请求进行拦截,如HTTP请求头部中包含各种编程语言特征的请求;针对高级爬虫技术,利用人机识别,可以对请求来源进行精准指纹识别和执行环境识别,阻断大部分机器流量,并增加爬虫的成本。


有效抵御超大恶意机器流量
依托知道创宇云安全的海量资源,可以实现动态资源动态调配而进行弹性防御,单日拦截能力超过50亿次。


详细爬虫分析报告

专人跟进用户网站的机器流量访问情况,提供丰富、详细的恶意爬虫分析报告。


接入流程简单

无需改动网站源代码,简单配置域名接入即可使用数据盾产品服务,安全专家可根据不同类型的可以提供不同的技术指导。

热门文章

关注知道创宇云安全

获取安全动态