写给大数据从业者:数据科学的5个陷阱与缺陷

发布时间:2019-09-10



最近,我看了新闻,发现数据科学专业已经是北京大学高考的一个高门槛了。事实上,Data Science这个词已经性感了近十年。对于互联网行业来说,它已经性感了一个世纪。


从“数据通话”,“DT时代”,到“数据中心”,“数据驱动/数据驱动”,数据系统的不断发展不断改变人们的工作和决策方式;每个人的思维方式;同时,它也产生了新的业务逻辑和新的发展机会。


In 1976, Pascal author Nikalus Wirth-Ets: Algorithms + Data Structures = Programs.


就像以前的"SOA"和"云计算计算"的概念一样,数据科学本身的概念仍然在不断变化,各种公司的从业人员都在摸索和谋利;总结和宣讲;当然,许多忙碌的同志使这个概念变得更加模糊。因此,数据科学本身的能力边界、方法论体系、最佳实践等尚未建立,也存在许多不能很好地回答的问题。因此,会有一些迷信和误解,如"强迫数据"、"随机数据"、"政治上正确的数据"等。这也是我打算总结数据科学实践中的缺陷和缺陷的原因。


这种共享是基于我自己的工作经验和与相关高级同事的访谈。它的正确性受到我个人认知水平和行业发展水平的限制,它与当前的一些问题进行了比较,但可能不是一个长期的真理。我希望当你读到它的时候你会认真的看着它。如果您有不同的想法,欢迎随时与我进行沟通和验证,并随时更新结论本身。


陷阱和缺陷1:数据质量会导致自动/智能决策失败


网易已经选择了许多业务,例如风能控制,其核心驱动力是数据和算法。我们在风控业务初期建立了数据算术驱动的风控系统,可以保证一个小团队(3人)支持数十种内外部风险场景的严格选择,每天执行数百万次风险决策。当然,这是数据驱动的自动决策/智能决策的力量。成功之美可能会让你不情愿地想要改变很多商业运营,但不幸的是,缺乏数据质量保证会让这一切成为空中楼阁,随时都会倒塌!事实上,大多数组织对数据质量的理解并不支持更加自动化和智能的决策场景。被迫重组和裁员将使他们先前稳定的业务接近崩溃。


严选风控制出现了几个与数据质量密切相关的重大故障。今年8月,风控部门发现,在每周一次的误判检查中,疑似误判率上升了四倍。最终位置的原因是与设备号有关的日志内容中有一些异常。因此,相当多的用户行为(登录操作)被错误地截获。


这是一个非常有趣的案子。一些关键决策:例如,用户是否坏?您要为特定项目购买多少?您可能依赖没有认真考虑的在线日志的一小部分。我们的整个质量保证系统很难将一个观点纳入一个日志领域的具体应用,在高压下是否会出错?在传统的应用服务质量概念中,没有人会认为它是一个错误、开发者,更不用说在日志领域偶尔出现一个小错误。但是,如果您使用数据作为生产手段,如果我们不创新应用质量保证的概念和工具,那么大量的数据分析报告、培训的算法模型和您的决策可能是不可靠的,因为您的生产方法本身是垃圾,旧说法是:"Garbage in"、垃圾。


另一个令人惊讶的事实是,用于生成数据的大量复杂SQL尚未经过测试,甚至大量数据系统也没有所谓的测试环境。很难像测试在线服务(例如订单系统)那样测试数据生产过程的正确性。那么,可以使用由数万行甚至数十万行(严格选择)产生的数据吗?这个问题实际上很难回答。


数据可靠性是数据驱动转换过程中的一个很大的陷阱。


每个人都在谈论数据质量的重要性,但在内心深处,感觉这是一个低层次的问题。因此,我们很少看到一个团队把大量的智能大脑投入到数据质量保证中。


除了缺乏资源投入外,许多数据小组对数据质量有不同的看法。我与一位在数据行业工作了15年的资深人士进行了深入的沟通,并对一家知名公司的数据系统做出了巨大贡献,谈到数据质量,“你认为数据质量是什么?他的回答是:”数据质量,真正需要考虑的是指标的一致性。“.你看,即使是非常资深的同龄人,他的看法也不完全,他对数据质量的理解,数据支持可以看到是能够报告的,这个层次是完美的,着陆到战术层,着陆到线路自动决策基本上是不可行的(因为数据质量故障很难像在线程序故障那样快速修复,这是一个持续的污染过程)。


数据是智能决策的输入,并且是动态变化的。它不能像代码依赖一样进行静态分析,它的依赖层次结构是动态的和不稳定的。


陷阱与缺陷2:数据科学的“科学”在哪里?


数据科学是一个我们经常谈论的词,它也是一个描述我们日常工作的词,但是当我们谈论它的时候,我们感到有点内疚,我们只看到数据。科学在哪里?如果没有“科学”的部分,我们的产出结论会不会有问题?


这是最常见的问题。数据科学从业者不知道什么是“科学”。所以在江湖上有个叫SQL男孩,SQL女孩的名字。


一个常见的问题是数据指标之间的相关性是否真的相关?在进行数据分析时,我们会做很多有趣的相关。例如,最近几个月购买拖鞋的用户似乎更有可能在最近一个月内重新购买另一件商品。但这种相关性是真的,还是仅仅是巧合(虚假的)?我们的分析报告很容易对这个问题视而不见。但如果这种相关性本身无法经受审查,它如何指导我们的工作呢?数据分析报告是否依靠运气推动业务发展?


即使我们有一个很好的统计基础,在每一个假设中加上p值,也很容易混淆相关性和因果关系。有两件事是相关的,不可能断定它们之间是因果关系。我们需要使用因果分析来解释符合业务逻辑和业务逻辑的数据之间的相关性。


如果从数据分析中省略因果分析的过程,就会得出一些奇怪的结论。例如,我们发现较大的用户购买的鞋子通常都很大。在缺乏基于商业逻辑的因果分析的情况下,我们也许能够指导操作:为了使用户的脚变大,我们应该卖给他们更大的鞋子。


但有时很难直接分析数据之间的因果关系,也很难直观地得出结论,此时我们需要用科学实验来帮助我们更深入地了解我们的业务。


如何做科学实验,结合谢良大神(谢亮,“科学”在数据科学)的观点,总结如下:


通过数据敏感性和业务熟悉性,可以识别和定义问题。


提出结构化、可量化的假设;


设计验证实验。科学与实验密切相关。在严格的选择和许多公司中,我们经常用实验来判断这个方案是好是坏。但这个实验更多的是帮助我们验证我们的假设,并帮助我们更深入地理解我们的用户(如今著名的实验室公司占据了头条:“通常情况下,ab测试帮助我们理解用户,而不是帮助我们做出决定)。设计一个好的实验并不容易,需要根据假设筛选出指标、样本集和可控因素(通常是流程)。设计实验需要很强的专业性。


收集和分析数据。分析数据不仅仅是观察趋势的直观方式。对数据的分析首先需要明确概念业务的主要指标及其相关性,指标之间的相关因素需要量化甚至计算。我认为这是一个结构化,系统化和定量化的系统,并且有数据分析。幸运的是,系统和服务可以支持结构化系统。我们的团队主要是今年设计和开发DIS系统(精选数据智能平台)。其中一个主要目标是解决这个问题。


分析师需要专业的定量分析能力和统计能力。


陷阱和缺陷3:操纵、误导、数据民主化不足


数据民主化是国外数据界讨论的热点,国内聊天较少。数据科学家通过黑魔法建立了一些模型,然后告诉商科学生如何做出决策,并告诉高级商业指标要做得很好。数据的能力仅限于一个专业的团队,但其输出与业务密切相关,这会给企业和管理人员带来恐惧和不安,而数据团队的结论不会被操纵?没有被误导的意图?这些问题很容易导致团队之间的不信任。


因此,缺乏数据民主化带来的一个重要问题就是信任问题。我们该怎么解决呢?


严璇在一次工业与技术联合创立大会上,一位同事提议与企业“相爱”。从目前的现实来看,这确实是解决信任问题的好办法。阿里的前数据主管车品觉老师也说过类似的话:数据同学应该“混、通、晒”,与企业一起吃饭,建立信任,才能相互成功。


但这不是一个可扩展和标准化的解决方案。去年,当我们考虑为2019-2020年开发严格选择的数据平台时,我们对此思考了很长时间。如何降低数据使用的门槛,使一切更直观,更易于解释?我们的一些项目,sql on ai,数据基础设施系统(dis),算法平台等,都有一个共同的目标,即降低数据使用的阈值,通过产品固化甚至可视化数据分析过程。


陷阱和缺陷4:数据预测未来并不是理所当然的事,预测的成功不仅仅是一个算法模型。


老板经常简化算法:预测不准确?找两个NB算法专家来制作模型!不幸的是,现实并非那么简单,你可能会发现100 NB算法专家都没用。


有人见过预测下一轮两色球获胜数的算法吗?有没有人使用算法来预测接近混乱的股市波动?作为旁观者,你能用这个算法预测意甲每场比赛的结果吗?


一些业务问题本身是不可预测的,因为它们与过去没有什么关系(例如双色球);其它业务问题具有高的预测成本,并且不能在短时间内做出有价值的模型(例如预测股票市场、预测游戏等)。需要考虑投资和回报。事实上,许多算法的成功着陆应用不仅需要合适的模型,而且需要大量的尺寸数据作为生产的手段。更重要的是,应该有一个完善和可靠的算法工程系统。另一方面,决策者往往忽视后者。


当决策者考虑使用算法模型来预测未来时,他需要了解输入和输出。 组织不仅需要投入几个算法神,还需要投入一个完善的数据基础系统和一个完善的算法工程系统.. 如果决策者期望数据和算法能起到突破性的效果,他们就需要有勇气投入他们无法承受的成本,比如基本的数据系统,比如算法工程。


陷阱和缺陷5:空中城堡 - 不完整的基础设施和基础能力


这个问题是抽象的,对于BI/算法/数据产品的学生来说可能很难理解。但你需要记住的是,数据的底部是不稳定的,不稳固的,它还需要一个团队来小心地保护它。


当每个人都对播放数据和使用数据推动业务发展感到兴奋时,如果你回顾一下Data Infra的同学,如果他们告诉你你正在使用的数据是否真的可以计算,那么当你没有多少时信心,你会感到害怕,你会觉得生活实际上什么都没有?如果您有机会采访各种互联网公司,您可以问他们哪个技术团队最抱怨或最麻烦?我相信答案更加一致:“大数据基金会团队”。在最初的几年里,包括严格的选择,这种情况也非常严重(当然,现在情况并不好)。频繁的数据故障,长数据时间表,缓慢的速度,不稳定性等是常见的。我们多次利用睡眠时间来做人肉保护。每次想起来,我都会害怕。


当然,这不是在大数据行业中缺乏专业性或缺乏从业人员的能力。但由于大型数据系统实际上没有一个非常坚实的工程基础。


数据库的基础设施可靠性不足:数据收集系统,数据存储系统,数据计算系统和数据分析引擎。这些服务的可靠性远低于其他在线服务。数据平台每日定时数据计算服务,如Hive或spark,如果成功率为98%,那已经很好了,而且在线服务系统,如果可靠率长期低于98%,学生相关团队很难坚持。一年没有优化。即使数据成功计算,我们的分析引擎(如impala)的长期查询成功率也不到95%。严格选择数据时更糟糕。 Impala的查询几乎每天都会失败或超时。非常多。


计算模型是不完整的,并且被广泛误解:计算大数据有两种模型:流模型和批模型。与这两个模型相对应的基础设施是独立开发的,不管它们是谁。同时,由于信息流的速度,有人称这两种模式为实时计算和离线计算。尽管流和实时计算以及批处理和离线计算在许多现实场景中具有一致性,但它们本质上是两个不同的东西。即使是很多实践者也无法清晰地区分这些基本概念,将实时计算等同于流计算,给数据工作带来了极大的麻烦。


为了适应这两种计算模型,许多组织的Data Infrastructure团队将有独立的流计算团队和批处理团队;将有一些实时的heli线路,将有实时的指标heli线路指标等等。这些仓库的研发人员和指标之间存在着差异,几个仓库建设指标的方法和定义也存在差异。维护成本和口译成本都很高,出错的几率也很高。对于一个企业来说,将数据要求分解成两条实时的heli线路并在一起实现是非常常见的。这种可怕的局面并没有好转。


LinkedIn、Uber、Ali等公司正在尝试进行批量流程集成,燕轩也在尝试,我们正在进行计算资源管理和调度集成。然而,两种完全不同的计算模型的融合是一件坏事,并且直觉上是错误的。我认为真正的商业问题可能不集中于批量流两种计算模型的不兼容性,而是基于实时和离线时间维度的不相容性。由于历史原因,实时数据往往需要通过流量计算模式来生成,这导致了对实时计算的误解=流量计算。以及实时数据与离线计算的融合,更容易解决。并且流处理还需要转到更适合于其的场景。


事实上,可以概括的问题远不止这些问题。例如,我们会担心“算法替代思维不会损害组织的愿景吗?”,“大规模依赖A / B测试做出决策,可能会导致短视的运营策略”等等。


中安威士:保护核心数据,捍卫网络安全


来源:网络收集


上一条:你的隐私被泄露了!大数据时代如何保护信息安全? 下一条:数据隐私是新的战略差异化因素