林海燕制图
■本报记者 胡军
北京消费者付先生最近很郁闷,自从自己更新了签证信息、团购了北京出发的机票,就不断接到各种营销短信以及骚扰电话。“如果说是偶然,那就是睁眼说瞎话;如果说是有些机构泄露了我的个人隐私信息,我确实没有证据。当然,也有一种可能,那就是网络爬虫所为,”对于自己的个人消费信息的泄露,从事网络信息安全十余年的付先生想到了三个泄露途径:“管理部门不可能泄露;航空公司有泄露的可能,但有一定的风险和制约;网络爬虫却没有这些负担,而且从技术上说可以从容实施。”
那么,网络爬虫到底是什么?为什么能从网络上肆意抓取消费者各种信息呢?
什么是网络爬虫
网络爬虫,顾名思义,其实就是一种“自动化浏览网络”的程序,按照一定的规则,自动抓取互联网信息,比如网页、各类文档、图片、音频、视频等,通过索引技术组织这些信息,根据需要快速地提供搜索结果等,是网络搜索引擎收集网上信息的主要手段,也被称为网页蜘蛛或网络机器人。
具体来说,互联网上的网页或网站如同一个个信息节点,大量的网页或网站通过超链接形成网状结构。消费者在浏览网页和点击应用时,通过点击网页上的链接,从一个节点跳转到下一个节点,自然会在网络上留下痕迹。网络爬虫软件程序,正是模拟了这一行为,只不过速度更快,跳转的节点更全面,所以被形象地称为网络爬虫或网络蜘蛛。“网络爬虫无处不在,最早的搜索引擎,正是基于这一技术。但是,现在很多所谓的网络数据公司,通过爬虫技术,在网络上肆无忌惮地抓取用户在门户网站、电信运营商、电商网站以及QQ、微信等等社交软件上的行为轨迹,甚至包括银行征信报告、家庭水电气消费在内的生活信息。”对于网络爬虫技术的发展与现状,从事网络软件平台开发十余年的山东青岛某科技公司技术负责人崔先生并不陌生。
他解释道:“抓到消费者的网络应用信息并不难,也不奇怪,关键看用来干什么,正常进行宏观的网络行为研究没有什么问题,但是有些数据公司会进行所谓的二次开发或深度开发,将其分割成客户需要的成百上千个维度来进行分析,然后变成具体的信息产品进行销售。也就是说,很多所谓的大数据技术,就是让消费者个人信息更容易被获取,被形成产品销售,然后被滥用。”
据崔先生介绍,部分目的不良的数据公司通过网络爬虫获取消费者数据信息的目的无非有两个:一是把散布于网络上的复杂数据转化为更容易被读懂的信息,以便购买相关数据的客户可以更好地使用;二是根据目标客户的需求目标,制定多元化的分析维度,以适应客户需求的多变性和复杂性。
仅售3.8元的33页精确信息
去年底,网络曝出南方都市报记者通过随机检索,在一家名为探知数据的科技公司仅花了3.8元就买到了事关个人隐私、长达33页的详细通讯信息报告,包括个人基本身份信息、近半年的通话记录详情、账单消费、出行信息和人脉关系等,并有详细的量化评分,信息精确度非常之高,出行信息准确定位到经纬度、门牌号的居住地址等。
除此之外,该公司可提供的服务产品还包括电商、社保、公积金、央行和学信网,查询结果五花八门,而且价格低得惊人:花费1元钱即可抓取的淘宝数据量最多为25页订单数据、京东近3年的消费数据……
“抓取这些数据并不难,一是部分网站安全意识不够,或者防范能力不足,二是部分网站睁只眼闭只眼,有意无意地放任不良数据公司去抓取,可以轻松抓取到每一个消费者使用过哪些地址网购,使用的频率,消费类型和购买金额等,甚至可以根据用户需要,列出消费类型,比如教育类占比多少、娱乐类占比多少、生活用品占比多少,形成了一张消费价格区间和消费兴趣和行为分布图,”对于爬虫技术的实现能力,目前仍在为部分数据公司提供爬虫技术服务的北京某信息公司负责人郭先生并不隐瞒:“消费行为、消费历史记录、金融支付信息、账户金额等等,都能轻松实现,数据来源包括社交网站、网上银行、网上营业厅、航空公司、12306等等,都可以设立多个维度的数据整合模型。任何一个消费者,只要消费信息被上传到网络上,或者在网上消费,从衣食住行到生活社交各个层面,均可以毫不费劲地被爬出来,根据需要,进行多维度分析。”
泄露途径无法溯源
2017年6月1日起正式实施的《中华人民共和国网络信息安全法》第二十二条明文规定,网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意。第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。然而,在实际网络应用中,上述法令并未得到认真落实。
以电商网络流行的“货比三家”为例:很多电商平台都有自动调价功能,其实正是通过爬虫程序扫描同类网站商品的价格,针对性地展开相应的调整,从而取得价格优势,为销量提供保证。“其实不少实时比价工具,技术背景就是爬虫技术,利用网络爬虫获取其他电商平台的同款商品的价格、促销、评论等商品信息,”对于网络爬虫技术的实际应用,从事电商网络平台和软件开发多年的北京某网络技术公司负责人吴先生直言不讳地告诉记者:“目前各家网络平台都有自己的技术在用,十多年前就有了该自动比价模式,底层技术就是爬虫。”
据吴先生介绍,其实,在电子商务行业,使用爬虫玩“猫捉老鼠”的游戏,是一个公开的秘密。每个电商平台一方面希望阻止竞争对手抓取自己的网站,另一方面又想渗透对手的网站。尽管各大电商平台都拥有各类技术防范,但网络爬虫数量还是令人震惊。除了竞争对手外,更多来自越来越多涌现的数据公司,目的就是获取消费者信息,形成产品进行销售。
“很多消费者可能接触过一些类似的比价平台、聚合电商或返利平台等等,大体原理都是一样的,消费者搜索一个商品或服务,平台就会自动把各大电商的商品放在一起供消费者选择,其实就是爬虫技术的应用。网络爬虫在为消费提供货比三家等便利的同时,不知不觉就收集了消费者浏览记录、消费记录、家庭位置等等信息,形成数据报告用于销售,方便商家进行有针对性的广告投放等等,而且,消费者根本无从知晓个人信息的泄露渠道,无法追查。”