关于大数据:⑩ 啥过程?

商业时尚落地后会显得很普通,因此无论大数据被说的多么好听,最后的样子一定与现在所设想和想像的不同。20 年前,人们想像中的办公自动化十分高大上,现在没人会觉得办公自动化有什么了不起,而且也远不如当初想像的那般秩序井然,各机构都只是根据自己的需要选择了办公自动化的部分设想,然后就那样用着了。大数据运动的构想虽然逻辑层次分明,但现实中的大数据却在混乱中按最便宜的方式逐渐具现化。

商业时尚的想像总是建立在某个现有原型的基础之上。比如在构想大数据运动的核心人才时,当在描述数据科学家时,跃然纸上的是学术精英的形象;当在描述矿工时,对应的几乎就是美国人口中的 tech nerd。我不是说学术精英和 tech nerd 没有交集,只是在说社会印象中不同类型群体存在刻板印象(sterotype),而这些群体印象就是商业时尚运动中构想的原型基础。这构想描述的群体特征是一回事,现实中寻找数据科学家或矿工时采用的标准则是另一回事。

理论上来讲数据科学家应该具备以下基本能力:

  • 数据存取,懂得如何存取大规模数据
  • 商业建模,根据商业问题定研究模型
  • 数据操纵,整理现有数据为所需变量
  • 分析建模,编写算法和程序分析数据
  • 数据呈现,创造性描述结果方便应用

然而实践中上述标准无法用于招聘选拔的考核中。感觉上,上述标准似乎可以通过工作样本(job sample)进行考核,但事实上数据分析必须的创造性很难评价,用 HR 术语来说就是“情景依赖性”太强。因此企业招聘数据科学家提供的工作描述虽然都大致包含上述内容,但实际选拔中采用的却是“门槛”标准,即学科背景:数学或计算机科学专业。前段时间有个老外猎头找我,聊到专业背景问题时两人都觉得用这个门槛筛选不靠谱,用这位猎头的话说“It's a shame.”不看能力,看出身。

与企业不知道用什么标准选择数据科学家相对应,自己贴标为数据科学家的人也是五花八门。Patil 和 Hammerbacher 创造了数据科学家个头衔,Davenport 用大喇叭喊出来这个职业,但大家对什么样的人该从事这个职业仍然一头雾水。从“人—职匹配”的角度来讲数据科学家的根本标准是“爱分析”,有人总结了六个方面个性特质,包括喜爱逻辑思考、享受非结构性问题、享受深度安静、构建故事型数据、保持好奇心、享受解决问题。可以用这份数据科学家自评自测下,看看自己有没有一颗矿工的心,仅供参考。PS,我的得分是 80。

因此单从大数据运动构想的“数据科学家”来看,便已经出现想像丰满,现实骨感的落差。现在人们对大数据的设想很美好,但落地后的效果注定是以最方便的途径实现的出来的那种,毕竟两点之间直线距离最短。而且时尚褪去后实实在在的落地的过程会很长,请做好心理准备!

留言

留言由 Disqus 服务支持。