为日均服务十亿人次做准备,美团数据团队如何走在业务前想问题

大数据文摘出品

作者:朱玲

 

“你每一次花钱,都是在为自己想要的生活投票。”

 

2010年3月4日,美团网站上线当天,美团创始人兼CEO王兴发出了这样一条微博,希望以“吃”为核心,去打造一个帮大家吃得更好,生活更好的全方位生活服务平台。

 

当然,要协调日订单已经突破3000万单的外卖配送以及包括快驴、买菜、单车、酒旅在内的多个业务线,一个稳定、强大的数据基础架构必不可少。

 

王兴给美团定的下一个目标是每天服务十亿人次,这个并发量对美团数据团队来说,将是不小的挑战。但同时,为了应对异常复杂的业务场景,保证跟技术的极致融合,美团数据团队也发展出了自己独有的特点。

 

“指挥部”核心支撑,“小兵团”灵活作战

 

据美团数据平台负责人李闻介绍,从宏观方面来说,美团内部整个大数据团队主要涵盖两大技术方向:一个是数据研发方向,涵盖面向数据资产的数据清洗、加工、整合、挖掘、管理、运营等技术领域,主要包括批处理和实时数据仓库的建设、数据管理、数据价值落地以及数据运营;另一个是数据系统研发方向,涵盖批处理、实时数仓开发工具链、BI系统、数据管理系统等数据系统研发。

 

大数据团队作为一个整体,希望通过数据内容建设、数据系统建设,来提升美团整个公司数据质量、数据效率、数据安全,以数据驱动的方式帮助公司完成业务目标,持续提高公司的运营效率和核心竞争力。

 

美团数据平台&机器学习平台

 

但是,涉及到实际的业务时,美团跟不少单一业务线公司“数据团队中央化管理”又有所不同,他们采取了基础研发部以“指挥部”的形式核心支撑,各业务线通过自有的规模较小的嵌入式数据闭环形成“小兵团”,灵活高效的完成单线任务。

 

李闻说,美团是多业务线多BG的组织形式,每一个业务线都有自己的研发团队,即每个BG下面有自己的数据工程师(DE)和数据科学家(DS)。其中工程师团队主要负责中心化的公共数据建设,而数据科学家团队则是面向公司集团层面的经营分析和决策,一些涉及公司重大发展方向的战略性问题,都会优先进行数据分析再进行决策。

 

在每个业务的“小兵团”之下,也有一个中心化的大数据团队,服务对象是全公司所有的业务线,为全公司所有的BG业务线提供能力支撑,这点与其他互联网公司相比也有很大的不同。

内容: 这个合成医疗保健数据集的创建是为了作为数据科学、机器学习和数据分析爱好者的宝贵资源。 灵感: 医疗保健数据通常很敏感,并受隐私法规的约束,因此难以访问以进行学习和实验。为了解决这一差距,我利用 Python 的 Faker 库生成了一个数据集,该数据集反映了医疗保健记录中常见的结构和属性。通过提供这些合成数据,我希望促进医疗保健分析领域的创新、学习和知识共享。 表格信息: 每列都提供有关患者、其入院情况和提供的医疗保健服务的特定信息,使此数据集适用于医疗保健领域的各种数据分析和建模任务。以下是数据集中每一列的简要说明 - 名字:此列表示与医疗保健记录关联的患者的姓名。 年龄:患者入院时的年龄,以年表示。 性:指示患者的性别,“男性”或“女性”。 血型:患者的血型,可以是常见的血型之一(例如,“A+”、“O-”等)。 医疗状况:此列指定了与患者相关的主要医疗状况或诊断,例如“糖尿病”、“高血压”、“哮喘”等。 入学日期:患者入住医疗机构的日期。 医生:在患者入院期间负责护理的医生的姓名。 医院:标识患者收治的医疗机构或医院。 保险提供商:此列指示患者的保险提供商,可以是多个选项之一,包括“Aetna”、“Blue Cross”、“Cigna”、“UnitedHealthcare”和“Medicare”。 账单金额:患者在入院期间为他们的医疗保健服务开具的账单金额。这表示为浮点数。 房间号:患者入院期间入住的房间号。 入场类型:指定入院类型,可以是“紧急”、“选择性”或“紧急”,以反映入院的情况。 出院日期:患者从医疗机构出院的日期,基于入院日期和实际范围内的随机天数。 药物:确定患者在入院期间开具或服用的药物。例子包括“阿司匹林”、“布洛芬”、“青霉素”、“扑热息痛”和“立普妥”。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值