(原标题:非法爬取简历、网贷、 淘宝记录……还有啥信息他们不扒不卖?)
名词解释:“爬虫”
一种常见的数据捕获技术,又被称为网页蜘蛛、网络机器人,其按照一定的规则,自动从互联网上提取网络信息的程序或脚本。
二手交易平台上不少商家出售所谓“大数据”信息采集服务,号称“专业爬虫”。
二手交易平台上一卖家自称“专业老手”,可代写各类爬虫软件。
简历采集器设有城市、兼职岗位、性别、年龄和发布时间等筛选条件。 网站截图
“全国各省市三百多行业数据信息采集”、“python爬虫程序数据采集代写软件,专业老手,定制化服务”……在某二手交易平台上,有不少提供所谓“大数据”采集信息定制业务的商家,声称可进行“专业爬虫”、“各大网站数据采集、数据处理、数据分析”。还有不少商家在QQ群里出售招聘网站简历采集器,可“无限量”导数据还帮忙介绍“客户”。
南都记者调查发现,所谓大数据采集定制业务“火爆”的背后,隐藏着一条非法爬取用户数据信息的黑色产业链――“专业老手”编写爬虫软件、提供软件定制服务、黑产团伙购买软件批量生成“大数据”信息再转手出售。业内专家指出,爬取数据信息存在法律风险,未经平台授权的非法爬取行为可能构成侵权、违法甚至犯罪行为。
A
网贷、培训信息、淘宝记录……各行业数据定制可查
以“大数据信息采集”、“数据爬取”、“数据爬虫”等为关键词在某二手交易平台上进行搜索,有很多提供所谓“大数据”采集信息服务的卖家。他们通常打着“数据爬虫”、“数据采集”、“数据分析”的招牌,声称可进行“专业爬虫”、爬取各大网站的数据信息,“只有你想要的,没有我们做不到的”。
“全国各省市三百多行业数据信息采集”,二手平台上一名卖家称,可以爬取的数据信息范围覆盖美容美发、餐饮美食、娱乐休闲、教育培训、亲子护理、各类学校、医疗保健、物流快递、建材装修、汽车数码等多个行业,“49元/市/行业”,“拍下后留下邮箱,采集数据当晚11点前发”。
那么,这些被爬取的“大数据”信息都包括哪些内容?该二手平台上一位卖家告诉南都记者,爬取的信息包括各类网页数据、公众号网站、赶集58、链家、饿了么等网站平台的用户个人信息,还有卖家称可爬取淘宝买家、商家信息、个人网贷最新一手实时申请数据等。
南都记者了解到,根据采集数据的难易程度,售价也不尽相同。前述商家称数据采集“基本版的100,普通版的200,高级版的300,如需制作客户端软件,费用另加”。交易平台数据显示,该商品近期已被浏览超过3000次,有多名网友在该商品下方留言,询问是否有唯品会、拼多多买家、58同城应聘者电话、小区业主等信息数据,卖家则回复可以提供,还特别提到“简历420万份,主要是中高端用户”,并称具体业务“私聊”。
南都记者发现,这些所谓提供“大数据”信息采集服务的卖家有的是个人、有的则是团队化操作的工作室,有卖家称这类数据采集在行业内业务需求量大,是“微商线上微信社群营销必备数据资料”,可用于精准推广、拓展客户和商品营销。
B
招聘网站上万份简历被打包出售, 每份仅1.5元
不久前,智联招聘“内鬼”私卖16万份简历信息一案引发关注,南都记者近日调查发现,被泄露的个人简历被多层转手出售,“黑市”上海量简历被打包出售,每份仅1.5元。以“简历售卖”、“简历下载”为关键词在QQ群中搜索,就能找到多个出售58同城、智联招聘等知名招聘网站的简历信息的QQ群,最大的群人数有上千人。而在贴吧、二手交易平台上,有不少公开出售智联招聘、58同城、BOSS直聘等招聘网站上个人简历的帖子。
“全国58简历日产5000+,可以筛选年龄筛选重复,还有纯二手简历,可出视频验证,二手0.3元/条”,在一个名叫“58简历全国交流群”中,南都记者看到,群内不断有人发布出售知名招聘网站简历实时一手、二手信息的帖子,有的卖家还在群内交流互换资源。群内信息显示,该群群成员总计超过2000人,高峰期的在线人数超过700人。
南都记者随机添加一名卖家为QQ好友,对方称他有全国各行业各地区的简历信息,“所有简历信息都是当天实时更新”,还可以指定求职者年龄、性别、地区,售价2.2元/条,而二手的则更便宜,仅售0.3元/条。某二手交易平台上一卖家称他手上有上万份简历,“58同城、智联招聘、赶集网的都有”,每份简历售价1.5元,“全国随机,不指定地区”,购买量大价格还可以再优惠。
南都记者了解到,这些公开售卖、明码标价的个人信息,根据地域、行业类别的不同,简历的价格标准也不一样。二手平台上一名出售智联招聘简历的卖家告诉南都记者,“北上广都比较贵”、“北京地区每份简历要卖六七块”。而除出售简历信息外,企业账号也可以被当成商品出售或转卖,有卖家告诉记者,购买企业账号可以直接下载招聘网站求职者投递的简历信息,“地区行业你说了算”。
当记者询问购买简历的人拿这些个人信息去做什么,卖家提高了警惕,回复称“不管你拿去干什么”,还不耐烦地表示“不用跟我说这个”,随后便把记者拉进了黑名单。
C
裁判文书网、知网数据也被爬 最低0.1元/条
南都记者注意到,除爬取各行业网站等用户消费、浏览数据外,中国裁判文书网判决文书也被当成商品出现在二手交易平台,有卖家称可通过数据爬虫技术,导出几百万甚至上千万条裁判文书网判决文书。
“裁判文书爬取,可长期提供更新全量数据,需要的私聊”,“裁判文书网6500万数据,0.1元/条,低于100万的数据,0.2元/条,低于1万的数据,0.5元/条,低于10条的数据,查询成本太高,不提供,有需要可以详聊”……某二手交易平台上,不少卖家称有海量裁判文书网判决书出售。
有卖家告诉南都记者,此类判决书可以根据客户需要的条件检索爬取,只要给出案件类型、审判程序、案由等关键词,就可以按类别进行海量数据导出,最终交付形式是Word或者Excel格式,提供SQL文件(数据库脚本文件)。
此前,有不少用户反映裁判文书网网站运行速度慢,故障频繁,经常出现页面无法显示的问题,今年2月,最高人民法院在其官网答复称,出现此问题的原因在于有大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大。针对此问题,最高法表示自2018年7月起以验证码的方式上线系统软件防爬功能。
而除了裁判文书网,南都记者发现,一些付费网站的数据也同样能被爬取,二手平台上有不少卖家出售知网、万方、知识库;维普等文献期刊数据,“全库数据爬虫抓取,2元起”。
背景
非法爬取“大数据”已呈公司化运营
去年8月,南都联合阿里安全部发布的《2018网络黑灰产治理研究报告》显示,2017年我国网络安全产业规模为450多亿元,而黑灰产已达近千亿元规模。在网络黑灰产的整条产业链中,利用各种手段爬取、窃取或者通过买卖的方式获得个人信息,成为黑灰产获利的主要方式,由此滋生出的电信诈骗、敲诈勒索等下游违法犯罪行为,对公民个人信息安全、财产安全造成严重威胁,成为侵蚀互联网经济正常运转的毒瘤。
今年4月,北京警方破获的巧达科技非法获取计算机信息系统数据案引发关注。这个号称中国最大的简历大数据公司,专业提供招聘工具软件和大数据分析服务,拥有一系列的人力资源类大数据产品,包括乔大招、妙招网及爱伙伴等,还曾获得天使轮、A轮和B轮融资,资方包括李开复的创新工场、中信产业基金等。
据警方披露,2018年10月,某互联网公司报案称,其公司员工发现有人在互联网上兜售疑似为该公司用户信息的数据。通过对该公司服务器日志进行调取、梳理、分析,初步还原了数据被窃取的全过程。巧达科技公司在未经授权的情况下,通过利用大量代理IP地址、伪造设备标识等技术手段,绕过该公司服务器防护策略,大量恶意窃取存放在服务器上的用户数据。且在窃取过程中,由于传输数据量过大,导致服务器数十次中断服务,影响上千万用户正常访问,给该公司带来了严重的经济损失。
律师说法
未经平台授权爬取数据信息或构成侵权、违法甚至犯罪
在对上述所谓“大数据”软件提供信息采集服务的现象进行调查中,南都记者注意到,有卖家在其业务介绍中自证清白称“违法乱纪的不做”,所提供的软件外包和数据爬取等业务只爬取各种网页、App公开的“看得见”的数据。
那么,按照大数据采集商的观点,如果爬取的是网页等公开数据,这种行为就真的合理合规?
事实上,非法获取数据存在诸多法律风险,虽然利用爬虫软件等各种技术手段爬取互联网数据的行为广泛存在,但为保护自身数据不被爬取,很多企业也都设置了反爬虫策略。当网络爬虫非法抓取数据信息时,可能构成的侵权、违法甚至犯罪行为主要包括危害计算机信息系统安全类、非法获取公民个人信息类和侵犯知识产权类等。
近年来,企业之间通过数据爬取引发的对于数据权益争夺的各种案件层出不穷。比如,新浪诉脉脉抓取新浪微博用户信息案、淘宝诉美景不正当竞争案等,对于非法爬取企业数据的行为,法律也更倾向于保护企业经营者的权利。
《网络安全法》第27条规定,任何个人和组织不得从事“窃取网络数据”等危害网络安全的活动,不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具。
述绍兴警方破获的这起大规模数据窃取案件中,上市黑产公司在运营商服务器内放置恶意程序清洗流量,导致30亿条用户数据被窃取。近日,公司法定代表人周某某等7人因涉嫌非法获取计算机信息系统数据罪,被检察机关提起公诉。
针对裁判文书网数据被爬虫售卖一事,北京市社会组织法律调解中心副理事长张新年律师认为,裁判文书网站上的内容基于司法公开目的,是免费的公共资源,未经最高人民法院授权,商家售卖裁判文书网数据则会构成侵权。
大数据爬虫背后谁在提供技术支持?
网售大数据采集定制业务如此“火爆”,这些所谓的“大数据”信息从何而来?又是如何被泄露出去的?南都记者调查发现,这背后隐藏着一条非法爬取用户数据的黑色产业链――“专业老手”编写爬虫软件、提供软件订制服务、黑产团伙购买软件批量生成“大数据”信息再转手出售。
“专业老手”代写爬虫软件
所谓爬虫,是一种常见的数据捕获技术,又被称为网页蜘蛛,网络机器人,其按照一定的规则,自动从互联网上提取网络信息的程序或脚本。虽然利用爬虫软件等各种技术手段爬取互联网数据的行为广泛存在,但为保护自身数据不被爬取,很多企业也都设置了反爬虫策略。
“python爬虫程序数据采集代写软件,专业老手,定制化服务”,二手平台上一位卖家介绍,其提供各类大数据采集软件代写订制服务,可进行“各种加密网站破解登录”,采集数据范围包括携程春秋航空等旅游网、美团天猫京东拼多多、微博知乎豆瓣等电商社交平台。该卖家称,他们是“一批精通软件开发的编程高手组成”的软件开发团队。平台信息显示,该卖家近期已完成多笔交易,用户反馈“好评如潮”。
“网络数据订制云端代采集京东淘宝车主金融等所有行业信息采集,拍下发软件”,二手平台上另一名卖家向南都记者介绍了一款名叫“智能云”的软件,售价980元,称该可采集的数据信息覆盖地图商家、搜索引擎、企业信息、车主信息等全网大数据,软件有导入微信通讯录、QQ群成员提取、微信群发、微信营销、QQ营销、论坛营销等多个功能界面。卖家介绍称,该软件可用来为各行业进行大数据引流、精准营销。
简历采集器700元/套“无限”导
除提供信息定制服务外,南都记者调查发现,网上还有商家出售所谓简历信息采集器,可自动爬取知名招聘网站上的海量个人简历信息。在QQ群“58赶集简历采集”中,QQ网友“无名”称简历采集器可“无限量”导出58同城求职者的个人简历信息,“全网实时同步”,“名字、电话、需要的工作、家庭地址都有,兼职全职都有”。
该卖家告诉南都记者,他用这个软件从招聘网站导出个人简历信息,然后在网上售卖,“一手1.5元,二手0.3元”,还向记者打包票软件“能赚钱”、“好用”,并表示如果买了这个软件,他还可帮忙介绍“客户”。
南都记者注意到,商家出售的上述简历信息采集器主要是针对58同城,“赶集网和智联招聘比较少”。那么,这类简历信息采集器是如何批量爬取招聘网站的用户个人简历呢?有业内专家就此分析过58简历信息采集器的“盗取手法”:
黑产团伙利用58同城在移动端的一个接口批量获取用户的简历ID以及加密不严谨的用户ID信息,再通过另一个接口导致用户包括姓名等真实信息泄漏,最后通过58的微店程序能够通过用户ID最终获取用户的电话号码。
一名出售58简历信息采集器的QQ网友“大神-售58简历采集器”向南都记者表示,他的软件可实时导出58同城、赶集网简历数据,采用的是“双接口”和爬虫技术,软件安装在PC端后,设置好条件便可进行实时数据导出,“上手快好操作”,售价为700元/月。根据卖家发来的视频截图,这种简历采集器设有城市、兼职岗位、性别、年龄和发布时间等筛选条件,采集到的数据包括姓名、手机号码、学历信息、工作年限、期待月薪等个人信息。
采写:南都记者 王琦