数据科学中的“帕累托法则”

发布时间:2019-11-15

一个多世纪前,政治经济学教授维弗雷多·帕雷托发表了他对社会财富分配的研究。他观察到的严重不平等现象,如20%的人口拥有80%的财富,令经济学家、社会学家和政治学家感到惊讶。在过去的一个世纪里,一些不同领域的先驱者在包括商业在内的多个层面上观察到了这种不均衡的分布。少数投入/原因的关键部分(如20%投入)直接影响绝大多数产出/效果(如80%产出)。这个理论被称为帕累托法则,也被称为80-20法则。


帕累托法则是一个非常简单但功能非常强大的管理工具。企业高管长期以来一直将其用于战略规划和决策。诸如20%的商店产生80%的收入,20%的软件错误导致80%的系统崩溃,20%的产品功能驱动80%的销售等,受到广泛欢迎,善于分析的企业尝试在他们自己的商业世界中找到这样的帕累托法则。通过这种方式,他们可以计划并确定其行动的优先顺序。事实上,今天,数据科学在筛选大量复杂数据,以助识别未来帕累托场景方面发挥着重要作用。


数据科学中的"帕累托法"


不仅数据科学有助于为企业预测新的帕累托场景,但站在数据科学本身的角度看,这一技术也可以从帕累托法则中受益。利用该法则可以使数据科学显著提高效率。在本文中,笔者将分享一些方法,作为数据科学家,我们可以利用帕累托法则的力量来指导我们的日常工作。


项目优先级排序


如果你是数据科学的负责人/ 经理,你将不可避免地需要帮助为你的组织制定分析策略.. 虽然不同的企业领导人会提出不同的需求,但你必须澄清所有这些组织( 或业务单位)的需求,并为它们设定路线图和优先次序。 一个简单的方法是量化每个分析需求所能得到的值,并按值的递减顺序对它们进行排序。 您经常注意到,少数问题/ 用例具有比例值(Pare to 规则) ,应该优先于其他问题/ 优先级.. 事实上,解决/ 实现每个问题/ 用例的复杂性的一个更好的方法是根据值和复杂性之间的权衡来优先考虑它们 (例如,将它们放在具有 x轴复杂性和 y轴值的坐标图上) ..


问题范围


业务问题往往是模糊和非结构化的,数据科学家的工作需要确定正确的范围。范围界定通常需要将注意力集中在问题最重要的方面,并忽略那些价值较低的方面。首先,查看输出/效果在输入/原因上的分布将有助于我们了解问题空间中是否存在高级帕累托。随后,我们可以选择仅查看某些输入/输出或原因/结果。例如,如果20%的商店产生80%的销售额,我们可以将其余商店分组到一个集群中并进行分析而不是单独评估它们。


范围还涉及风险评估 - 更深入的评估通常告诉我们,最重要的项目带来更高的风险,而最低级别的项目不太可能发生(帕累托定律)。我们可以把时间和精力放在一些主要风险上,而不是所有风险上。


数据规划


复杂的业务问题需要的数据超出分析数据集中可用的数据。我们需要请求访问、购买、获取、抓取、解析、处理和集成来自内部/外部源的数据。它们具有不同的形状、大小、健康状态、复杂性、成本等。等待整个数据计划落实到位,可能会导致项目的延迟不受我们控制。有一种简单的方法是,根据这些数据对最终解决方案的价值,对这些数据需求进行分类,例如绝对必须拥有、有好处和可选的(帕累托法则)。这将帮助我们专注于绝对必须拥有的东西,而不是被可选的东西分心或拖延。除了价值之外,考虑数据获取的成本、时间和精力方面的因素将帮助我们更好地对数据规划工作进行优先级排序。


分析


有种说法是,一名工匠只用20%的工具就能完成80%的工作。这也适用于我们的数据科学家。我们倾向于使用很少的分析和模型来完成我们工作的重要部分(帕累托法则),而其他技术的使用频率则要低得多。探索性分析中的典型示例包括变量分布、异常检测、缺失值插补、相关矩阵等。类似地,建模阶段的示例包括k折交叉验证,实际VS预测图,错误分类表,超参数调整分析等构建使用/访问/实施这些分析的微型自动化(例如库,代码片段,可执行文件,UI)可以在分析过程中带来显著的效率。


建模


在建模阶段,我们不需要很长时间才能在流程的早期找到合理的工作模型。到目前为止,大部分提高准确性的工作已经完成(帕累托定律)。剩下的工作是微调模型并提高精度。有时,为了使解决方案对业务可行,需要进一步的精确度。在其他情况下,模型微调对最终的洞察力/主张没有多大价值。作为数据科学家,我们需要认识到这些情况,以便我们知道在哪里划分。


业务沟通


今天的数据科学生态系统是多学科的。项目团队可能包括业务分析师,机器学习科学家,大数据工程师,软件开发人员和多个业务利益相关者。这种团队成功的关键驱动因素是沟通。作为一名勤奋的工作者,您可能需要沟通所有工作 - 挑战,分析,模型,见解等。然而,在当今信息超载的世界中,采用这种方法无济于事。我们需要认识到“更有用但不太重要”(帕累托定律),并利用这些知识来简化我们沟通的信息量。同样,我们提供和突出的信息需要针对目标受众(业务利益相关者与数据科学家)进行定制。


帕累托法则与我们而言是一个强大的工具,以正确的方式使用,可以帮助我们整理和优化我们的工作。


中安威士:保护核心数据,捍卫网络安全!


来源:网络收集


上一条:大数据将市场营销推向21世纪的7种方式 下一条: 数据库安全能力:安全威胁TOP5