淘宝数据采集(大数据集群框架平台实例)

编辑导读:随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在“数智化”时代下一步一步得到运用与升华的;因内容颇多,笔者将分几期为大家进行讲解。

淘宝数据采集(大数据集群框架平台实例)

一、前言

上一期文章中,我们已经了解到“数据”是一个庞大的体系(如下图所示)这篇文章把数据讲透了(一):数据来源;并用了菜市场的例子,为大家讲解数据来源的含义;而今天小陈主要给大家到了指定“菜市场”后,我们怎样“买菜”,即数据采集的过程。

淘宝数据采集(大数据集群框架平台实例)

二、数据采集(买菜)

首先,我们先对数据采集的方式进行一个简单的分类介绍,后面分别介绍每一种数据采集形式需要注意的要点。

淘宝数据采集(大数据集群框架平台实例)

1. 按数据采集方式

线下(问卷、实地调研)——注意要点:遵循5大要素!

5个要素:

1)紧紧围绕研究主题和目的

评价一份问卷调查优劣程度的准则中很重要的一点就是,问卷内容是否贴合研究主题,就算一份问卷设计得再精妙,如果与主题无关,也是毫无价值的,因为我们开展问卷调查的本质目的也是调查相关要素和调研群体背后千丝万缕的联系。

例如,调查用户满意度,一般涉及到产品本身(价格、包装等)和受众特点(年龄、地域、心理满足等)两个维度。

2)题目易读、易理解、且具有一般性

问卷分发后,是需要受众进行填写的,所以问卷的易理解程度也最终决定者问卷的质量。

问卷并不是学术论文,不需要为了彰显专业素养而涉及很多专业、晦涩难懂的词汇,让调查者能够真的看懂才是关键。

而一般性则指的是这个问题的设置是否对所有受众都具普遍意义。例如,调查居民出行方式的问卷中,你认为最安全的交通工具是,A火车 B飞机 C宝马小轿车 D电动车,我们可以看到C选项不具有普遍意义,且和A、B、D不是一个维度的选项。

3)充分考虑被调者特点

在使用问卷调查方式时,要充分结合被调群体的特色,来进行问卷的设置;例如针对学龄前儿童和老年人,则不宜采取书面问卷调研的形式,要充分考虑到他们的语言偏好(有些老人可能普通话不标准,但方言流利)、对内容的理解能力,再派出访谈调研小组进行调研。

4)充分考虑问题排序(循序渐进)

问卷问题的设置除了考虑每个问题的规范性、合理性外,还需要考虑到问题与问题之间的逻辑性和连贯性,避免时间、空间、人称等维度的频繁跳跃。

5)充分考虑统计便利性

除了考虑问卷调查的受众外,问卷设置还需要充分考虑后期问卷回收后的统计分析;尽可能减少后期工作压力,变量不宜设置太多,应该用尽量少的变量高效获取标签信息,帮助后期研究定性。

线上(按数据采集端口细分为APP端和网页端)

APP端(主)——数据埋点获得相关数据:

首先,先和大家科普一下,数据埋点到底是什么?以及APP端为何要特别重视数据埋点。

其实,所谓埋点就是在用户使用APP的过程中,对他们的一系列行为数据进行收集,以优化产品和运营;而大多APP自带服务和盈利性质(如淘宝、得到等),那么想要实现转化,引导购买就需要将“点”埋到具体的交互组件上(例如,点击跳转链接、购买按钮等),然后对PV、UV;停留时间、跳出率、购买率等指标进行量化。

就埋点的形式而言,主要分为以下三种:

代码埋点:控件操作发生时通过预先写好的代码来发送数据,目前百度统计、友盟都提供这一服务。

下面举一个例子,例如,我们想统计淘宝APP里面加入购物车这个按钮的点击次数,则在其被点击时,可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口来发送数据。

优点:控制发送数据时间,事件自定义属性详细记录;缺点:时间、人力成本大,数据传输的时效性。

可视化埋点:利用可视化交互手段,通过可视化界面配置控件操作与事件操作发生关系,通过后台截屏的方式采集数据;例如,当用户产生多次刷新这一行动时,结合大数据算法,推算出用户的喜好并切换推送内容、产品,再通过可视化埋点,自动切换到对应的个性化推荐内容页面。

淘宝数据采集(大数据集群框架平台实例)

优点:成本低,速度快,产品、市场等各部门均能参与;缺点:行为记录信息少,支持的分析方式少,减轻开发负担。

无埋点:用户展现UI界面元素时,平台会通过控件绑定触发事件,事件被触发的时候系统会有相应的接口让开发者处理这些行为;上传UI界面后,系统能够自动识别生成控件的唯一ID,ID是在程序内部生成,只需保证在不同的手机上面这些ID是一样的,就能实现用户端的无埋点数据获取。

淘宝数据采集(大数据集群框架平台实例)

优点:无需埋点,方便快捷;缺点:行为记录信息少,传输压力大。

网页端——网页爬虫(python,C…):

就具体语法而言,因为使用工具不同,并不能就具体语法提供指导(大家根据自己使用的语言,在CSDN上进行搜索),但其总体方法论是一致的。

方法论:人工确定爬取信息的维度→分析目标网站URL构成→确认爬取工具→编写程序语言→获取数据→保存于本地→后续进行数据挖掘。

三、结语

本期,笔者通过一个“买菜”的例子,带着大家了解了数据采集的几种方式,相信大家有所收获!

下期,笔者讲在数据采集的基础上,为大家讲解如何利用常用工具进行数据清洗和数据清洗的几个维度!

本文由 @小陈同学ing. 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

版权声明:本文图片和内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送联系客服 举报,一经查实,本站将立刻删除,请注明出处:https://www.4kpp.com/34067.html

(0)
漫空客漫空客
上一篇 2023年4月20日
下一篇 2023年4月20日

相关推荐

  • 进项税转出会计分录(进项税额转出的会计处理)

    一、用于非应税项目,进项税额转入相关的项目,比如用于在建不动产时的会计处理: 借:在建工程 贷:原材料 应交税费-应交增值税(进项税额转出) 二、用于免税项目的购进货物或应税劳务的…

    投稿 2023年4月23日
    880
  • 囗罩制造设备(口罩生产机器设备)

    本设备是将一台口罩本体制作机与二台口罩耳带熔接机相连接当口罩本体做成后由传输带送至口耳带熔接机进行耳带部分的熔接。可以完成一个完整的耳朵口罩,仅需一名操作员即可操作整条生产,该产线…

    2023年4月23日
    1210
  • 东营景点(东营景点大全一日游)

    今天给大家分享一个关于东营景点的问题(东营景点一日游)。以下是这个问题的总结。让我们来看看。 游览东营景点,发现城市魅力。 东营位于山东省中部的黄河三角洲,是一座具有悠久历史和独特…

    投稿 2023年4月23日
    2820
  • 狡猾的意思(狡猾的意思解释)

    今天小编给各位分享狡猾的意思(狡猾的意思解释),如果能碰巧解决你现在面临的问题,别忘了关注小站,我们一起开始吧! 你说的狡猾是什么意思? 普通定义 狡猾,奸诈,诡计多端。 接近正义…

    投稿 2023年4月23日
    2340
  • 人体体温正常范围(人体体温正常范围多少37.5)

    今天给大家分享一个关于人体体温正常范围的问题(人体体温正常范围37.5是多少)。以下是这个问题的总结。让我们来看看。 人体体温的正常范围 体温是指人体内部的温度,是一个重要的生理指…

    投稿 2023年4月23日
    1400
  • 2028年奥运会在哪个城市举办(2028年奥运会在哪举办?)

    今天和大家分享一下2028年奥运会在哪个城市举办(2028年奥运会在哪里举办?),以下是本期总结,大家来看看。 2028年奥运会将在哪个城市举办? 随着越来越多国家的投资和举办奥运…

    投稿 2023年4月24日
    1070
  • 鱼塘氨氮超标怎么处理(鱼塘氨氮超标处理方法)

    今天给大家分享一下鱼塘氨氮超标的处理知识,也给大家讲解一下鱼塘氨氮超标的处理方法。如果你碰巧解决了你现在面临的问题,别忘了关注这个网站,现在就开始! 鱼缸氨氮超标的处理* * * …

    投稿 2023年4月23日
    1180
  • 淘宝代销怎么做起来?可以刷单吗

    现在很多的淘宝商家们都会弄代销的方式,因为这种方式可以解决库存积压的问题,只需要赚取其中的差价就可以了,那么做淘宝代销的商家是否可以去刷单呢?下面一起来了解一下。 首先得说下淘宝代…

    2023年4月22日
    1010
  • 海底捞正在逃离小县城(为疯狂扩张买单)

    “火锅一哥”海底捞(06862.HK)身陷“增收不增利”的窘境。 2月21日,海底捞发布2021年盈利警告,过去一年其录得净亏损约38亿~45亿元;收入预计超过400亿元,同比增长…

    2023年4月23日
    960
  • 东北为什么限电(东北为什么限电呢更本原因是)

    多重因素影响下,一些东北地区电力供应陡然紧张,缺电不仅造成工业生产受限,还对居民生活造成一定影响。而即将到来的东北供暖季,又将对煤电供应造成新的影响。 “大清早停水停电,家里一滴水…

    投稿 2023年4月20日
    1030

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注