今天又是美好的一个周末,跟大家聊点有意思的事情。
事情的起因是这样的,前段时间一个圈外(码农圈)人,突然间问了我一个问题,我们是不是在被自己手机上的 APP 录音啊,因为经常会出现一个情况,自己在和别人或者朋友谈论一个事情,不就之后,就会在各种购物 APP 或者百度的广告上或者浏览器的广告上或者 APP 的广告上就能看到相关的广告。
相信很多人都有这种经历,是不是感觉有点细思极恐,感觉自己好像在被监视一样。
这个事儿怎么说呢?
做为一个圈内人,我可以负责任的告诉大家,这个事情从纯技术的角度上讲是完全可以实现的。
但是(一般但是后面才是重点),各大厂商完全没必要这么做。
为啥这么说呢?
这么做有点大炮打蚊子的感觉,我们毕竟是生活在一个商业社会,商业社会讲究的是投入回报比,这么干是可以干,就是投入有点高(真不是一般的高)。
为什么投入高回报低
我们先拆解一下这件事情,看看一共需要分几步完成。
首先,我们的程序需要一直保持在后台运行,并且开启录音功能,先不说现在手机系统 Android 和 IOS 对后台程序保持的限制,就单说程序一直运行,保持录音,这个绕不开的就是功耗问题,功耗问题最直接的提现就是手机电量下降会变快。
想像这么一个场景,用户有一天装了一款 APP ,忽然发现原来手机电量能用到接近下班,现在只能用到中午就开始电量报警,各位猜测下,用户这时候会不会打开什么手机助手之类的查看电量消耗。
可能不会是吧,那么接下来会遇到第二个问题, APP 的录音是一直开启的,那么这么大的录音文件放在哪里?
手机上的存储毕竟还不像我们电脑上的存储,机械硬盘现在都是 TB 起步了,小编查了下今年的主流机型, 256G 的存储绝对算的上是相当大的存储空间了,一个 APP 录音录一天,多的不敢说,几个 G 肯定是跑不掉的,可能一天两天没啥感受,日积月累,用户忽然发现,手机内存慢了,放不下了,这时候各位说,用户会不会打开手机助手看下到底是哪个 APP 占用了大多数的存储空间(顺便说一下,小编的手机上占用最多的是微信,有十几个 G ,可能是微信每天都在给我录音)。
可能有人会杠,可以不存在本地啊,可以做分时上传啊,比如先录个 5 分钟,然后后台偷偷摸摸的传到云端去。咳咳,这位同学,先坐下,中国人对手机其他功能或者指标可能不敏感,但你说他如果对流量不敏感小编是真的不信。流量超标运营商可是真的会把手机费扣到爆炸的。
这么玩被人发现了,小编估计这款 APP 会被人喷死。
要玩就玩点高端的么,比如说,可以在客户端直接做语音识别,把音频信息转换为文本信息做存储,这样不会占用过多的存储空间也偷摸上传的时候也不会跑太多的流量。
我们先不考虑实时语音识别的功耗问题,一个至关重要的问题是识别准确度的问题,因为一般不会把复杂的模型部署在本地,这样在客户端提取准确信息的能力就会下降,最后可能得到的数据价值并不高。
再做假如,我们得到的数据质量还行,更坑的问题还在后面,录音程序识别声源和场景又是一个绕不开的世界级的难题,这还是要在客户端运算量极其有限的情况下完成。
比如,在办公室,旁边的同事在讨论一些母婴类的话题,这时你拿起手机,结果全给你推送的是纸尿裤、奶粉、尿不湿等东西,会不会觉得这个画面非常的违和。
即使上面的问题得到了解决,还有一个绕不开的问题是我们日常的说话的场景是非常的嘈杂的,如何在这么嘈杂的环境中提取到有效的声音信息,这个又够很多人研究很久了。
接着还会有一个世界性的难题是,中国的方言有点多啊,尤其是闽南话系,作为一个北方人来讲,基本上就没有一个字是能听懂的。遇到中国的方言,多厉害的语音识别都得翻车,直接就是地狱模式。
如果上面的问题都能克服,那么,在中文中,还有一个经典的问题是:语义识别或者语义分析。
中文博大精深,这句话应该没人反对吧,比如:我一把把把把住了;胸口上除了校徽别别别的。
这里面的每个把字和每个别字,要精准的知道每个字的意思,有多难就不说了吧。
再有,很多情况下,我们说话会根据场景的不同产生不同的释义,这个别说机器了,很多时候连人都不知道,这叫潜台词,比如:大家在入职的时候,HR 跟你介绍公司的时候讲:弹性工作、包三餐——加班,早晨虽然不强制打卡,但是晚上也别想早下班。
为什么广告推的那么准
看到这里各位同学应该已经知道录音这件事儿有多不靠谱了,但是还有一件事儿不明白,就是为什么会出现如此精准的推送。
这么讲吧,各大厂商虽然没有使用录音来收集信息,但是小编可没说他们没通过其他手段来收集信息。
首先商家的目标是什么?
他们是要把精准的广告信息投放到你的手机屏幕上,才有可能引起你的购买欲。
这就需要商户知道你是谁,你对什么感兴趣。
想想看,平时哪些内容能知道你的这些信息。
有一个每个人每天都要用到的工具——输入法,没错,包括手机上的输入法现在主流的也就那么两三家。
有没有感觉一个输入法用久了就会越来越懂你,很多时候你打出来前两三个拼音就会猜测到你整句话。
有没有想过背后的原因是什么,这个可以思考下。
还有一个是推送消息的厂商。
这个就是你手机 APP 经常会收到一些广告的消息推送,一个弹框就保留在你的手机锁屏界面上了。然后对应的 APP 上会出现个小红点或者红色的小数字,你点一下这个消息,对应的红点或者数字就会消失。
这背后就会涉及到消息推送的厂商。
有这么一类厂商,就是专门做消息推送的,因为他们是专门做这个的,会相当的专业,对各种系统的兼容性都会比较好,包括消息的送达率会比较高。一般而言,各个其他 APP 出于成本或者专业性的考虑都会采购他们的服务。
消息推送的厂商在市场上的巨头一只手可以数的过来,以至于他们获得的数据量会相当的庞大和准确,经过一系列的处理和分析,对吧~~~
剩下还有一个,广告联盟。具体有多少厂商接入了广告联盟,小编也不清楚,但是毋庸置疑的是,这个联盟的数据量是极其的庞大。
最后
小编写这篇文章的目的知识简单的科普一下 APP 收集录音有多么的不靠谱以及一些最基础的信息收集的来源。
数据收集以及人物画像的制作,这些东西其实并不是什么秘密,很多厂商都在做的事情。
而这些都是在为其商业目的添砖加瓦。
小编的意思并不是这么做不好或者不对,如果没有这些技术,大家看抖音可能都会觉得索然无味。
小编认可技术无罪,但是技术的使用需要被约束。
在这个个人信息近乎透明的时代,对大数据应该抱有警惕之心,同时也需要有法律的约束,不知道各位还记不记得前些时间某司依靠大数据杀熟。
因为当我知道你的一切行为数据的时候,某种程度上,我可能比你更加了解你自己。
虽然数据使得我们的生活更加的方便,但是同时,失控后也会更加的可怕。
所以,这里需要有法律来进行约束,增加作恶的成本。
毕竟,人,是复杂的趋利的自私的。
毕竟,马克思曾经说过:如果有百分之二十的利润,资本就会蠢蠢欲动;如果有百分之五十的利润,资本就会冒险;如果有百分之一百的利润,资本就敢于冒绞首的危险;如果有百分之三百的利润,资本就敢于践踏人间一切法律。
