当前位置: 首页 > 原创
广告1

相关热门文章

相关热门内训课程

相关热门公开课程

互联网思维培训:用最少的数据获得最多的信息
    时间:2015-01-06
       最近,私人企业和个人才拥有了大规模手机和分类数据的能力。在过去,这是只有教会或者政府才能做到的。当然,在很多国家,教会和政府是等同的。有记载的、最早的计数发生发生在公元前8000年的,当时苏美尔的商人用黏土珠来记录出售的商品。大规模的计数则是政府的事情。数千年来,政府都试图通过手机信息来管理国民。

       以人口普查为例。据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都恺撒主导实施的人口普查,提出了“每个人都必须纳税“,这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒。1086年的《末日审判书》(The Doomsday Book)对当时英国的人口、土地和财产做了一个前所未有的全面记录。皇家委员穿越整个国家对每个人、每件事都做了记载,后来这本书《圣经》中《末日审判书》命名,因为每个人的生活都被赤裸裸地记录下来的过程就像接受”最后的审判“一样。

       然后,人口普查是一项耗资且费时的事情。国王威廉一世(King William I)在他发起的《末日审判书》完成之钱就去世了。但是,除非放弃收集信息,否则在当时没有其它办法。尽管如此,当时收集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准去记录下每个人的信息。实际上”人口普查”这个词来源于拉丁语“censere“,意思就是推测,估算。
三百多年轻,一个名叫约翰•格朗特的英国缝纫用品商提出一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数,这个方法就是后来的统计学。这个方法不需要一个人一个人地计算。虽然这个方法比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。

       虽然后来证实他能够得出正确的数据仅仅是因为运气好,但在当时他的方法大受欢迎。样本分析法一直都有较大的隆冬,因此无论是进行人口普查还是其他大数据类的任务,人们还是一直使用一一轻点这种“野蛮“的方法。

       考虑到人口普查的复杂性以及耗时耗费的特点,政府极少进行普查。古罗马在拥有数十万人口的时候每5年普查一次。美国宪法规定每10年进行一次人口普查,而随着国家人口越来越多,只能以百万计算。但是到19世纪为之,及时这样不频繁的人口普查依然很困难,因为数据变化的速度超过了人扣普查局统计分析的能力。

       这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据,但是当数量无比庞大的时,这有不太现实。那如何选择样本呢?有人提出有目的地选择最具代表性的样本是最恰当的方法。1934年,波兰统计学家耶日•奈曼指出,这只会导致更多更大的漏洞。事实证明,问题的关键是选择样本时的随机性。

       统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,一个对1100人进行的关于“是否“问题的抽样调查有着很高的精确性,精确度甚至超过了对所有人进行调查时的97%。者是真的,不管是调查10万人还是1亿人,20次调查理有19次都能猜对。为什么会这样?原因很复杂,但是有一个比较简单的解释就是,当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的编辑效应递减一样。

       认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。这种观点为我们开辟了一条手机信息的新道路。通过收集随机样本,我们可以用较少的花费做出高精度的推断。因此,政府每年都可以用随机采样的方法进行小规模的人口普查,而不是只能没十年进行一次。事实上,政府也这样做了。例如,出了十年一次的人口大普查,美国人口普查局每年都会随机采样的方法对经济和人口进行200多次小规模的调查。当收集和分析数据都不容易时,随机采样就成为对信息采集困难的办法。

       很快,随机采样就不仅应用于公共部门和人口普查了。在商业领域,随机采样被用来监管商品质量。这样使得监管商品质量和提升商品品质变得更容易,花费也更少。以前,全面的质量监管要求对生产出来的每个产品进行检查,而现在只需要从一批商品中随机抽取部分样品进行检查就可以了。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,讲焦点讨论引进了政治界,也将许人文问题变成了社会科学问题。

       随机采样取得了巨大的成功,成为现代社会、。现代测量领域的主心骨。但这只是一条捷径,是在不可手机和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它陈宫依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。最近,以固定电话用户为基础进行投票民调就面临了这样的问题,采样缺乏随机性,因为没有考虑到只使用移动电话的用户——这些用户一般更年轻更热爱自由。没有考虑到这些用户,自然就得不到正确的预测。2008年在奥巴马与麦凯恩之间进行的美国总统大选中,盖洛普咨询公司、皮皮尤研究中心、美国广播公司和《华盛顿邮报》社这些主要的民调组织都发现,如果他们不把移动用户考虑进来,民意测试结果就会出现三个点的偏差,而一旦考虑进来,偏差就只有一个点。鉴于这次大选的票数差距几期微弱,者已经是非常大的偏差了。

       更糟糕的是,随机采样不适合考察子类别的情况。因为一旦继续细分,随机采样结果的错误率会大大增加。这很容易理解。倘若你有伊恩随机采样的调差结果,是关于1000个人在下一次竞选中的投票意向。如果采样时足够随机,这份调查的结果就可能在3%的误差范围内显示全民的意向。但是如果这个3%左右的误差本来就是不确定的,却又把这个调查结果根据性别、地域和收入进行细分,结果是不是越来越不准确呢?用这个细分过后的结果来表现全民的一员,是否适合呢?

       你设想一下,一个对1000个人进行的调查,如果要鞋子分到“东北部的富裕“,调查的人数就远远少于1000人了。即使是完全随机的调查,倘若只用了几个人来预测整个东北部富裕女性选民的意愿,还是不可能得到精确结果啊!而且,一旦采样过程中存在任何偏见,在细分领域索道的预测就会大错特错。

       因此,当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用。随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦某个点,就会变得模糊不清。

       随机采样也需要严密的安排和执行。人们只能采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题。所以虽说随机采样是一条捷径,但它只是一条捷径。随机采样方法并不适用与一切情况,因为这种调查结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。我们来看一下DNA粉丝。由于技术成本大幅度下降以及在医学方面的广阔前景,个人基因排序成为一门新兴产业。2012年,基因组解码的价格跌破1000美元,这也是非正式的行业平均水平。从2007年起,硅谷的新兴科技公司23andme就开始分析人类基因,价格仅为几百美元。这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏病。
咨询电话:
0571-86155444
咨询热线:
  • 微信:13857108608
联系我们