大数据公司生死劫-数据获取与应用

2019年9月18日18:09:04 6 75

近些日子数家大数据公司被派出所调查或查封。同时,多家企业紧急收紧或叫停相关大数据服务。也就是说自大数据推到台面来第一个生死劫,也是永远绕不开的一个生死劫——用户隐私。站在隐私的层面上,大数据的获取和应用目前是重灾区。

大数据公司生死劫-数据获取与应用

今天弥雅就这个话题,来说说自己的认知见解,若是有不妥当之处,还需大家勿喷。

大数据本身就没那么简单

大数据本身就不是一个简单的生态,不管从大数据的哪个环节都是这样。若是你以为大数据就是利用用户的一些行为来判定一些事情,那你就天真了。若是你以为可以把 QQ、微信、淘宝、京东、今日头条等等单一个平台的用户数据拿出来印证一些非单维度的事情,那你就太天真了。

总之就是目前 90%以上的大数据公司就是“脏”,因为“脏”所以不简单的事情就更加的不简单。

大数据“脏”——数据获取

众所周知,想用大数据达到某个目的,那么第一步就是数据获取。数据获取的第一步是从哪里获取你想要的数据,然后是如何从目标那获取到你想要的数据。

所以对大数据而言,数据获取至关重要,当然这并不是什么难事,因为有“爬虫技术”。

我们都知道,爬虫是一项计算机技术,其作用是搜集网页上的信息或数据,然后把搜集到的数据搬运到自身数据库里。经目标授权后,风控数据供应商通过后台“爬虫”搜集信息,将通话信息、消费数据等互联网信息进行整合,最终形成对目标的综合评估,供需求方做相应的后续决策。

目前爬虫技术的数据采集主要包括:

  • 公开的第三方数据;
  • 抓取用户主动授权的个人基本信息、联系人信息、银行卡信息等数据;
  • 授权抓取数据,如设备号、IP 地址、运营商/电商等用户授权后合规采集数据;
  • 经授权的平台数据,如用户在平台的历史借款、还款情况等用户已在注册协议或隐私协议中授权业务方进行分析的数据。

值得一提的是,在一些现金网贷产业链条中,运营商数据是一个非常重要的风控维度。那么是不是会存在大数据公司在用户授权情况下,会抓取一些手机卡过往使用情况的信息,包括使用时长、常用联系人等的可能呢?

若是牵扯到运营商,那么就可能存在这几种可能:

  • 互相勾结情形,也就是没有用户授权的情形下,和爬虫公司合作。
  • 运营商不知情的情况下,爬虫公司实现数据获得。
  • 运营商得到用户授权情形下。

也就是伴随着爬虫而来的还有这么几个争议:

  • 是否经过用户授权;
  • 是否存在过度爬取信息;
  • 爬取到的信息用途不明等诸多争议。

当然,大家可能还知道的是,“爬虫”对应的词语是“爬取”,也就是检索后获取。那么结合上面的“几种可能”和“几个争议”,我们可以开联想一些更加可怕的东西。

爬取用户电脑的可能:

  • 会不会爬取用户电脑浏览器里的一些数据;
  • 会不会通过软件爬取用户电脑硬盘里的数据,例如图片、文章等。

爬取用户手机的可能:

  • 通过权限爬取用户图库;
  • 通过权限爬取用户使用应用的一些数据;
  • 通过权限爬取用户短信、通讯录等。

就手机权限问题,可能有些人存在疑惑,那么弥雅来举三个例子:

  • 某 APP 需要摄像权限实现用户账号头像设置,但摄像权限涉及到图库,那么会不会爬取用户手机图库呢,或者是非允许下静默启动用户手机摄像功能。
  • 某单机游戏 APP 需要联网权限,那么会不会存在爬取和偷跑数据的可能呢?

其实对着应用所需手机权限,大家可以更全面更深的想想,那么可能就会“后背直冒冷汗”。

当然,大数据公司的数据获取除了“爬虫技术”,还有一条路是“数据采买”。

数据采买,这很好理解的,就是数据拥有方把初步整理好的数据出售给大数据公司,这里面存在下面两种可能:

  • 数据出售,是否得到相关用户授权与允许;
  • 所出售数据是否是非法所得等。

综上,大数据公司要想在数据获取环节不“脏”,那么就应该在遵守相应法规基础上,尊重和守护用户敏感数据安全,且不过度获取用户数据。

大数据“脏”——数据应用

大数据应用这块的“脏”大部分是建立在先前数据获取的“脏”上面。当然除了这个,还有别的,但是先生声明大数据应用的“脏”不一定是非法性为。

大数据应用的“脏”目前一般下面几种可能:

  • 大数据“杀熟”,这在网购平台较为多见;
  • 信用评估与执行,例如现金贷(包括网贷);
  • AI 应用。

除了上面几种可能,其实还有很多应用可能,这里就不多说。此次就简单说说 AI 应用。

大家走知道的一个事实,目前的 AI 也就是人工智能,本质上就是用很多的数据喂养出来的,我们完全可以理解为是利用大数据喂养而得的 AI。

这类 AI,在数据应用时,一般是利用算法分析已有数据然后再利用算法进行应用,例如某些资讯、自媒体平台 APP、网购平台、地图等 APP。那么我们也不难发现,这类 AI 在算法应用过程中,其实也是数据获取与分析的过程,其实这就是现在绝大部分的 AI 人工智能。因为没有自主逻辑产生与应用,所以不少业内人士又称之为“伪 AI 人工智能”。

那么大数据在 AI 应用上的“脏”在于,会消耗不少自律性相对低的用户的专注力、信息获取丰富度,俗一点讲就是通过 AI 塑造用户现代化的“坐井观天”或者是“管中窥豹”。

大数据的生死劫——用户隐私

目前而言,在合法合规的道路上,大数据产业的第一个生死劫就是用户隐私。若是在数据获取上存在侵犯、过度索取用户数据的行为,那么跟在数据获取后面的大数据清洗、大数据分析、大数据应用都会存在“脏”。

除了上面说的获取、应用,那么大数据还存在一个问题就是数据安全。数据安全是伴随数据分析、数据应用而产生的。一旦发生那么就是数据泄露,而数据泄露一般是人为泄露和非人为泄露。但不管怎么说,这些都是导致现在用户隐私满天飞的罪魁祸首。

可能你会说,用户数据不是用户隐私。那么弥雅在这里很负责任的告诉你,用户隐私是用户数据的一部分,这是一个理解,还有一个理解就是:用户不允许你用其数据,那么对于你来说,用户数据就是用户隐私。

那么今年来,相关机构与部分对 APP 应用、大数据产业的动作,主要是集中在过度甚至非法获取用户非公开数据、泛滥应用用户非公开数据。

这是加速清退劣质企业的一个过程,相信未来我们国内的大数据产业,是对用户和社会有良性帮助的健康产业。

weinxin
我的微信
这是我的微信扫一扫

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:6   其中:访客  3   博主  3

    • 银色月航 银色月航 4

      通宵加班,过来转转,好久没看博友啦

        • 弥雅 弥雅 博主

          @银色月航 通宵加班?那得好好注意身体啊!还有,你的银色月航网站,似乎只能用户登录才能评论了!

        • 张波博客 张波博客 4

          现在不管什么,都谈大数据了!

            • 弥雅 弥雅 博主

              @张波博客 这两年互联科技产业最大的两个玄机,一个是满地皆是大数据,一个是家家都有AI智能。

                • 阿明 阿明 3

                  @弥雅 口号喊的震天响,最后还是旧瓶装新酒

                    • 弥雅 弥雅 博主

                      @阿明 其实这个与资本市场有很大关系的!