运营商数据挖矿背后:暗箱操作和“擦边”交易
在“谁监控了我的手机”的隐私焦虑中,有一道身影较少出现在大众猜疑链里:运营商。
负责移动大数据产品的内部人士,早在五年前写道:“原先运营商还在探索变现商业模式,现在应该没有什么秘密可言了,基本上找到了大数据变现的方向。”更直观的一组数据是,上海数据交易所中,三大运营商的数据产品占比超20%;贵阳大数据交易所里,中国移动的“梧桐风控大数据”产品以超2800次的访问量遥遥领先。
不过,21世纪经济报道记者点进各大运营商的产品列表,发现了不少让人颇为意外的交易。
比如中国移动的孕期家庭识别分,输入电话号码、姓名、身份证,可输出对应0~150分值的孕期家庭分数。
多位业内人士表示,识别分是典型的数据交易方式,目的是提供群体筛选结果,无法推测出精确到个人的信息。但运营商内部的业务人员也向21世纪经济报道记者透露,他们会约定每个手机号对应的“序列号”,这样不需要明文传输手机号,也能精准交换个人信息。
在《个人信息保护法》的规定之上,“标签识别分”等数据产品表面看起来无害健康,但是水面之下,有不少暗箱操作:场外交易不“擦边”很难拿到销售业务,“匿名数据”成为皇帝的新衣,个人授权亦无从说起。
上述记者在数据交易所看到的运营商数据产品,名义上都落于风控领域。从业务层面理解,一般是A公司对B公司要求返回的用户群体进行筛选。
一位负责政企业务的移动内部人士向21世纪经济报道记者解释,这类数据产品的本质是标签筛选,交易大致有三步:首先,客户要根据自身的业务场景制定一个筛选需求,比如需要筛出有办卡意愿的用户,并提供用户资料;随后,由运营商挑选可靠的数据指标,进行算法或建模分析;最后,通过API接口的方式返回用户筛选结果。
在多位业内人士看来,这种“标签识别分”是一种典型的交易方式,标准化程度高,适合场内交易。
“标签产品会选择上架大数据交易中心进行交易,一般会涉及设备ID、手机号等个人信息。”TalkingData总法律顾问兼数据合规官葛梦莹向21世纪经济报道记者解释,出于安全合规的考虑,实践中很多企业会在隐私计算平台中进行数据交互处理,即双方均上传自己的加密数据包,做到原始数据不出域、数据可用而不可见。
专门开发风控系统的芯盾时代副总裁杜旭解释,之所以用这种方式,是因为“识别分”或者“标签”是平台挖掘预测的主观结果,不具备客观性。此外,如果只看返回的频率或者统计字段,无法推测出精确到个人的信息。
“实际上也有一种交换数据的方式,那就是双方事先制定一本数据字典。”以杜旭的观察举例,在电商公司的数据交换中,双方可以约定模糊数值对应哪些具体数据,比如识别分为0.8,对应信息为月收入8000~10000元,方便还原更精确的数据。
前述中国移动内部人士还透露了一种常用的“取巧”方法:序列号。由于运营商不能直接提供有具体手机号码的数据,对待小商客,业务人员往往只会提供群体级别的筛选结果;但遇到大型政企客户,业务人员会对其提供的用户手机号码逐一编号,并用光盘、U盘的形式传送对应手机号的序列号。此时的群体筛选,摇身一变成了精准查询。
该移动内部人士还提到,拿“幼儿家庭识别分”来说,如果教育行业的客户希望筛选一批可能是幼儿家庭的手机号,他们也会组合营销短信、外呼电话的配套产品一同销售,可以把筛选人群理解为精准营销获客的一环。
从程序上看,客户的需求是否合规合法,中国移动又能否满足客户需求,主要由公司内部的信息安全部把关。不过现实中,运营商的一条明确红线是不能明文提供手机号、不能提供精确的行动轨迹,至于其他数据交易的颗粒度能有多细——“其实主要还是取决于客户大小和客情关系。”他坦言。
为什么要用上述方法“包装”数据,逻辑很简单:如果数据能精确识别到个人,就落入了个人信息的范畴,需要单独取得用户同意,除非数据已经匿名。
一位不愿具名的数据法学者解释,序列号的这种方式实际上是一种“去标识化”的技术,在不借助额外信息的情况下无法识别到个人,因技术上实现难度低,在企业实践中更为常见,可以理解为一种弱化版本的“匿名”。
根据我国《个人信息保护》要求,需要满足无法识别、不能复原两重标准,才属于匿名数据。观韬中茂律师事务所合伙人吴丹君向21世纪经济报道记者指出,如果能通过序列号重新对应个人手机号,仍然属于交易个人信息。
按照《个人信息保护法》规定,交易个人信息前应当向个人进行充分告知,包括交易方的名称、姓名、联系方式、处理目的和个人信息的种类,并且需要取得用户的单独同意才行。
运营商可能跟哪些第三方交易数据,又是如何取得用户同意的?21世纪经济报道记者翻阅了三大运营商的个人信息保护政策,几乎都采用的是一揽子授权。
对于风控查询,电信和联通表示,只要用户合法授权了第三方公司来核验信息,运营商便可返回个人信息。第三方公司的范围可以很广泛,在中国电信的条款里,“金融机构、征信机构、数据服务机构、互联网企业”都囊括其中。
而对于个性化广告,移动、联通承诺除非获得同意,否则不会跟第三方共享个人信息,但不包括用户画像。中国电信使用的是“脱敏信息”一词:“在收集您的个人信息后,我们将通过技术手段对数据进行去标识化脱敏处理。请您了解并同意,在此情况下我们有权使用已经脱敏的信息。”
对外经贸大学法学院教授张欣此前告诉21世纪经济报道记者,个人事先和运营商签订的授权文件中的个人信息,和运营商真正调取的个人信息,二者之间存在信息差。用户未必能够明白自己的数据用于何处,并真正愿意授权。
对于数据交易双方,并非不愿意匿名处理,或者没有意识到有合规风险,难题有二:一方面,实践中的绝对匿名化难以达到。随着大数据技术的不断发展,匿名数据被重新组合、重新定位到个人的风险不断提高。
前述内部人士透露,在交易过程中,客户往往需要一些非常精确的个人数据,而一线业务人员背负逐年增长的考核指标,不“擦边”很难拿到销售业务,在市县级存在更多私下数据交易。有些情况下,甚至是公司层面的主动让步。
“三大运营商越来越卷,只要有一家打破了(隐私)底线,剩下两家就必须要打破底线,要不然项目不好做。”他无奈地解释。
根据2023年的财报数据,“通信服务”作为三大运营商的基石,增长速度已经基本持平,几乎可以一眼望见市场空间的天花板。数据变现,既是借国家数据要素政策的东风,也是运营商营收增长的必选项。
而作为数据下游的风控系统应用方,杜旭解释,在风控产品的场景中,没有办法通过某一单一的数据判断出风险行为,几乎都要引进第三方数据综合判断。而“原则上说,这种识别分数据产品的辅助权重太小,不足以提供一个决策依据,很难为这种数据产品花钱”。
不愿具名的行业人士表示,监管落地时,最关注的是数据泄露风险,也就是传输过程中加密工作有没有到位。不过多位代理数据合规业务的律师指出,如果进入了司法程序,法院会严格按照无法识别、不能复原的双重标准,审核数据交易的所有环节。
吴丹君感受到了其中两种利益的拉扯:如果对个人隐私和信息安全的规定过于严格,可能会限制数据的自由流通和应用,从而阻碍数据市场的发展活力;相反,如果数据市场的发展缺乏必要的监管,可能会导致个人隐私被忽视。
“长久以来,数据相关行业与隐私安全问题高度绑定,数据隐私保护和数据市场发展之间通常存在此消彼长的关系,监管会根据发展需要,对隐私性和流通性做出一定取舍。”张欣也说。
张欣表示,我国目前是通过“数据二十条”、《个人信息保护法》《网络安全法》和《数据安全法》等政策法规设定边界,引导市场试水。但张欣也坦率指出,目前这些基础性法律文件,都缺少对数据权属的明确界定。数据到底属于谁、能够享有怎样的权利,还需等待更明确的法律回应。