在业务信息聚焦过程中,对发现出来无法具象描述出来的课题,组织进行专题研究,通过算法的形式构建数据特征进行深层次挖掘,得出潜在结论,如上:环境偏远建议增加驻点。
给作者打赏,鼓励TA抓紧创作!
实际业务中如何分工配合可以效用最大化
本篇目录:
作者:赵小洛,公众号:赵小洛洛洛
推荐系统:将知识图谱作为一种辅助信息集成到推荐系统中以提供更加精准的推荐选项,知识图谱+推荐系统;
七、数据分析师应该掌握的程度综上,对于一个专业数据分析师来说,在各个层面需要掌握的能力要求可以如下:
对算法的一些理解
业务了解 ★★★★★
赞赏2人打赏
之后针对算法产出的结论,可以进行可行性分析,基于业务上的实际诉求,分析选址位置、人群覆盖、套餐标准等等。
二、哪些场景下需要用到机器学习算法在很多场景下都需要用到机器学习算法,换一个角度,来说说我对应用场景的理解。本质上说,我过去的一些项目里面通过算法解决的问题大致上可以分为这么几类
懂汇报是台阶:好的分析离不开好的报告,好的报告离不开好的汇报技巧,在谁的面前怎么说话,说什么话,也是一项技术活儿。
4. 预测数值预测与分类预测都属于预测场景。销售预测、股票预测、流量预测,这些都是常见的预测场景。11、12年的时候清一色的都会用arima,spss在手天下我有,没有什么是时序不能解决的,到后面就变成xgboost、LightGBM了。
金融领域涉及到风控的几乎都是GBDT / XGBT+LR,因为在金融行业有一个非常特别的属性:监管。
换了其他深度学习的模型,从最终的模型效果上来看,roc/auc/ks的表现没差,但是解释性极差,也就造成了很多应用上的壁垒。换一个通俗点说法,你很高级,然而并不实用,华而不实。
譬如说做菜:为了能吃的更好点,选择一本合适的食谱来准备食材、辅料,根据步骤和技巧“小火炖、中火炸、大火炒”,“一炒、二炖、三焖、四涮”,起锅装盘;
数学本身非常抽象,学的快忘的快,自然而然算法对很多人来说具备某种神秘感。人类的好奇心和上进心,促进了人类的进化与生存,所以我要揭开那层神秘面纱去学习。
2. 数据分析为了达成业务目标,可以使用算法来进行快速论证分析师懂算法非常有必要,最近几年,数据分析师的岗位职责中,或多或少会写一些算法相关要求。
算法原理 ★★★
金融风控:利用实体之间的关系分析金融活动的风险以提供在风险触发后的补救措施(如反欺诈等);
我的认知是,初级分析师不需要懂算法即可cover大部分的工作内容。但是要想职业更上一层楼,增强分析的科学性严谨性和效率性,尤其是涉及算法策略驱动的业务类型中,分析师必须懂一些常用机器学习算法。
其实分析的重点还是聚焦在对目标问题的拆解、论证与实现上,对于绝大多数分析师而言,业务需求特征大致可归纳为,交付时间短、实现成效快、数据维度丰富、结论支撑足够、方便报告汇报。
分析思维 ★★★★★
策略:降低成本、提效增益,算法本质上解决的就是这两件事情,算法产出结果可以有效的支撑策略制定,论证是或否的可行性。
步骤:有先后顺序,先做什么然后做什么最后做什么,每个过程之间还必须具备可行性,执行次数也一定是有限的;
方法:通过计算来实现,也就意味着需要具备具体的、可量化的信息输入,且可计算,而非不可执行的概念体;
懂分析是核心:数据分析的基本方法原理、专业高效的数据分析方法论、灵活性的组合技巧运用、结合业务的适用分析方法论、高度的数据敏感性;
社交类业务:社交类业务具备高度连接的特点,比如好友关系等,<用户1,关注,用户2>。
电子商务:构建商品的知识图谱用于精准匹配用户的购买意愿和商品候选集,知识图谱+推荐系统;
譬如上学:从家门出发,直走50米,第一个十字路口右转,继续直行100米,到达公交站,乘402路车,5站后下车,沿人行道继续行走200米,左转,再直行150米,最终到达校门。
这些都可以理解为算法,生活里面比比皆是,不过多数情况下成为了我们习惯的一种方式罢了。
哪些场景下需要用到机器学习算法
数据分析师与算法工程师的职责差异
所以如果我们不从更高层次去理解和对待算法,那么在实际运用时,就可能如刻舟求剑,难以取得预想效果或者过早的否掉一个本可以恰当解决当前问题的算法模型,只因为相关的工作没有足够的重视(例如数据清洗、特征选取方式不合理)。
同样人也会经常高估自己的毅力及短期内可取得成果,所以往往是:费劲周折投入大量时间搞明白几个算法原理实现后,就再也没有继续坚持下去。此时可能走向一个极端,只要能使用第三方的算法库在自己的电脑中成功运行并能输出结果就可以,效果不好就再换一个算法尝试。
数据分析师应该掌握的程度
大部分业务分析的场景都可以通过类似杜邦分析的方法进行层层下钻拆解,而这个过程对数学知识以及算法知识的涉及可能非常少。
3. 排序排序之所以单拎出来,它的应用场景其实有一定的局限性,但是怎么做好排序,客观、合理,却是一个值得去考究的事情。常见的排序应用场景有热点榜单、搜索排序、推荐排序等。
公安刑侦:分析实体和实体之间的关系获取案件线索等;
目的:为了解决某个/某类问题,需要在这之前了解到背后的业务背景、关联场景;
信用卡申请反欺诈:分类任务,GBDT算法 / XGBT算法+LR逻辑回归;
skl包提供了大量简单函数,为了快速运用这些函数解决实际问题,我们不得不花时间去了解算法的内部原理及实现细节。建筑设计师不需要精通制造钢筋水泥的工艺,但需要了解不同钢铁、水泥的性质用途及之间配合关系,道理同样适用在这个环节。
衍生出的问题立马就出现了,如何从千万级甚至亿级的商品里面去做匹配召回,如何从万亿级的会话内容信息中定位线索,如何明确哪些人才是我们目标的特定人群,如何把相应的信息通过什么渠道push到最合适的人,如何去做到好的触达,又如何去回收这些人收到信息之后的反馈效果。
通过和一些朋友交流,发现目前一些数据分析师,其实不是很清楚机器学习可以如何应用于业务,也不清楚自己到底要不要去学习算法知识。实际业务中一些复杂算法场景例如商品推荐、内容推荐、匹配策略等,其实都需要数据分析师做大量的探索验证工作。
在关联分析中,有提到过强相关、弱相关、不相关。作为一名业务,他可以说这个产出结果通过业务经验也能知道,而作为分析,则需要把所谓“经验”演绎为规则,这个规则就是通过数字串联起来的。
一、对算法的一些理解在讲分析师与算法之前,先来理解一下什么是算法(Algorithm),专业术语在很多书籍、文章里面都有分别的定义,通俗一点理解,大致上可以认为算法是为了解决某个问题的固定化计算方法与步骤。
贷款申请反欺诈:分类任务,GBDT算法 / XGBT算法+LR逻辑回归;
教育医疗:提供可视化的知识表示,用于药物分析、疾病诊断等;
故需要将回答赞/踩数量、回答用户该领域权威性、赞/踩用户领域权威性、回答时间、回答争议性、回答用户的历史画像特征等综合权重进行算法排序。
六、实际业务中如何分工配合可以效用最大化实际业务过程中,分析和算法的需求方是存在一定差异的。在协同上,往往有可能不同部门的人,在做同一件事。可能会因为需求导入时的背景、视角不同,造成结论之间存在差异性。
视频个性化推荐是供需管理,商品个性化推荐是供需管理,网约车是供需管理,供需管理即“ 谁可以找谁消费到一件相对比较合适的东西(内容、物品、信息、线索、商机),在这个过程中还可能需要通过哪几个谁才能打通彼此之间的联系。”
分析师前期可以为建模指导方向,中后期也为模型的优化提供一些新的思路与数据洞察,此外用算法还可以大大提升分析效率与分析科学性。今天,就让我们详细的来了解一下数据分析师与算法的前世今生。
拆解一下上面这句话:
专业极其细分:按照研究方向划分,主要是视频算法工程师、图像处理算法工程师、音频算法工程师、通信基带算法工程师、信号算法工程师、NLP算法工程师、生物医学信号算法工程师等知识深度宽泛。
大公司里面资源较丰富,往往这两者会并行。从某种程度也就严格的区分了数据分析和数据算法间的职责边界;而中小企业资源有限,可能造成分析即算法的现象。
结论:是否能够解决这个问题,效果如何,最终必须得有一个产出物。在算法之外,还有几层扩展;
信息检索/搜索:搜索引擎中对实体信息的精准聚合和匹配、对关键词的理解以及对搜索意图的语义分析等;
具体的算法搭建过程就不说了,在不少工具书、专业书、案例书里面都有非常详细的讲解。回到问题上,什么场景下需要用到算法去解决问题。举几个生活里面的例子:
精细化:把结果作为标签,结合CRM、广告系统、营销系统,帮助业务更便捷、更精准地获取信息,强化用户感知,制造新奇感引起用户注意,设置规则以提升用户使用黏性;
题图来自Unsplash,基于CC0协议
区别:数据分析通过一些传统的方法来解决实际问题,门槛低,人人都是数据分析,实现效果即可忽略性能;算法工程师的门槛相对较高,需要对原有的方法进行一定程度的创新,来解决特定领域中的问题,且需要保证算法的性能、效果、稳定。
2. 如何协同数据算法之前,应该先进行数据的探索分析,通过对业务问题的定位和拆解,找到可用的数据维度特征,采集数据,形成数据指标进行各种维度组合的统计分析,得出初步结论进行汇报,如上:人均收入低建议降低资费。
1. 多数情况下,我们仅在迎合这个世界的法则,却并未去思考它为什么存在在挖掘分析应用的项目中,算法是核心要素,大部分算法的实现原理,都会涉及一些高等数学知识。
业界已经有了非常多成熟的算法应用实践,有的时候为了做数据论证和探索,就需要用到类似算法,其目的是用最短的时间找到一个可以去下结论的突破点。于是在实际应用时会碰到一个前提,即每种算法都有其合适的应用场景及前置条件,且当具体使用时超级参数的影响也非常大。
3. 分析师要更好成长,横向知识储备必不可少数据分析师的成长就像一场马拉松,需要合理分配时间精力。专注力和自制力是一种稀缺资源,需要用在最合适的地方。经常提醒自己的目标是什么,才能把事情做好,对于分析师来说尤其如此。
2. 算法工程师的要求懂技术是前提:不同的算法可能用不同的时间、空间或效率来完成同样的任务,算法的运行效能需要具备一定的coding技术支撑。
自然语言理解:知识图谱中的知识作为理解自然语言中实体和关系的背景信息;
编辑导语:数据分析师,乍一听好像只需要与数据打交道,收集分析数据并且做出相应地决策判断。但是,真的是这样子的吗?数据分析师其实也需要学习算法知识,并且在实际的工作中去做大量的验证。在本篇文章中,作者就带我们去解数据分析师与算法的前世今生。
数据分析:通过对数据的观察,我们发现不及时缴钱人群里的贫困人口占82%。所以结论是收入低的人往往会缴费不及时。结论就需要降低资费;
归纳总结 ★★★★★
三、算法的产出物及形态,如何应用于业务