2017年9月26日星期二

《商务智能数据化运营管理》课程及教育资源

本课程定位数据科学与大数据运维与可视化分析。面向数据科学与大数据应用专业建设,定位一线运维人员岗位需求实现人才培养规划。通过直观的可视化操作界面实现对大数据核心架构,生态圈组件的部署,配置与运维操作。

同时,针对经管学院,数理统计学院等零编程经验学生,通过工具应用,轻量级编程,以及大量的可视化操作平台,面向大数据行业背景提升数据获取,数据清洗,数据挖掘与数据可视化分析能力。通过先进的商务智能数据可视化分析平台,并穿插海量真实行业数据分析案例,实现业务逻辑与商务思维应用在大数据分析领域的结合,精准匹配行业需求并提升职业竞争能力。

一、《数据可视化逻辑锻炼》模块


无论是数据可视化工程师,还是商务智能分析员,利用数据可视化分析的核心,不在于懂得用多少种可视化形式展示数据。而最为重要的,是建立起一套完整的数据可视化效果的思维模型架构,也就是了解通过哪种数据可视化形式,最能精确的表达你的数据分析思维与逻辑。当然,大部分数据分析人员凭借多年的经验,逐步积累了一套不成文的逻辑规律,或者直观反映——譬如:当显示股票交易数据的时候,总能想到K线图;当想到个人能力360测评的时候,总能想到雷达图等等。


  1. 数据可视化逻辑:散点图
  2. 数据可视化逻辑:线形图
  3. 数据可视化逻辑:条形图
  4. 数据可视化逻辑:饼图
  5. 数据可视化逻辑:地图
  6. 数据可视化逻辑:雷达图
  7. 数据可视化逻辑:树状图
  8. 数据可视化逻辑:树状图(Tree Map)数据可视化分析
  9. 数据可视化逻辑:关系网络图
  10. 数据可视化逻辑:标签云
  11. 数据可视化逻辑:漏斗图
  12. 数据可视化逻辑:桑基图(Sankey Diagram)
  13. 数据可视化逻辑:K线图
  14. 数据可视化逻辑:日历热力图
  15. 数据可视化逻辑:拨号盘(Dial Gauges)
  16. 数据可视化逻辑:圆圈图(Circle Pack)
  17. 数据可视化逻辑:象限图(Quadrant)
  18. 数据可视化逻辑:层次结构图(Hierarchies)
  19. 数据可视化逻辑:甘特图(Gantt)
  20. 数据可视化逻辑:形符图(Picto Chart)
  21. 数据可视化逻辑:弹道图(Bullet Chart)
  22. 数据可视化逻辑:运动图(Motion Charts)
  23. 数据可视化逻辑:箱形图(Box Plot)
  24. 数据可视化逻辑:箱线图(Box-plot)数据可视化分析
  25. 数据可视化逻辑:瀑布图(Waterfall)

二、《ORACLE 数据可视化桌面实战》模块


Oracle 数据可视化桌面(Data Visualization Desktop),利用直观的数据可视化和交互式的自助探索,来透视企业的业务绩效,从而有机会快速的对业务展开持续的洞察和改善。现在,越来越多的人们开始利用数据可视化技术来探查数据,并得出与以往截然不同的新洞察。Oracle 数据可视化桌面最大的优势在于可以直接将具备商业智能级别的数据分析与洞察平台直接在个人电脑上执行,支持Windows 和Mac 两种操作系统。同时通过读取访问本地数据,或者建立与超过40种数据源的连接,在个人电脑上直接进行快速灵活的数据分析。同时,Oracle 数据可视化的产品组件,不仅仅支持本地部署,也可以在云端方便地访问,甚至在个人的桌面端,用户也可以自如地分析任何来自个人或企业内部的数据,在任何时间,任何地点,让您的分析无所不在。


  1. Oracle Data Visualization 数据可视化桌面与高级分析扩展部署
  2. Oracle Data Visualization 桌面版实战:全球CO2排量
  3. Oracle Data Visualization 桌面版实战:人力资源分析
  4. Oracle Data Visualization 桌面版实战:优步行程分析
  5. Oracle Data Visualization 桌面版实战:美国大选辩论
  6. Oracle Data Visualization 桌面版实战:财务预算分析
  7. Oracle Data Visualization 桌面版实战:零售销售分析
  8. Oracle Data Visualization 桌面版实战:零售利润挖掘

三、《商务智能数据可视化分析综合案例》模块


高校大数据实训项目综合案例 —— 我们开发了多个真实的商业级项目实训案例,通过完整的“端到端”业务流程演示与上机操作训练,让学生真正了解大数据行业背景以及企业实施技术需求,通过直观而具备针对性的训练使学生在最短时间内得到应用技术技能的提升,更进一步满足职业岗位对工作技能的需求。

综合案例1: 零售行业商务智能数据可视化分析仪表盘

  1. 实验1 - 关键指标及趋势分析
  2. 实验2 - 商品利润互动分析
  3. 实验3 - 客户价值差异化分析
  4. 实验4 - 区域差异化分析
  5. 实验5 - 增强型GEO可视化
  6. 实验6 - 多项式趋势线销售预测
  7. 实验7 - 业务网络关系分析
  8. 实验8 - 客户消费时间表日志
  9. 实验9 - 商品销售架构分析
  10. 实验10 - 各城市销售利润率监控

四、增强型商务智能样本数据集


1. 销售数据

  1. 商品销售数据
  2. 54万条在线零售商销售数据
  3. 户外运动商品销售分析
  4. 萨克拉门托房地产交易记录
  5. 销售渠道与机会分析

2. 市场营销数据

  1. 快餐业营销活动效果评估
  2. 营销优惠券计划评估
  3. 营销客户价值分析

3. 人力资源数据

  1. 人力资源员工损耗分析
  2. 人力资源培训预算分析
  3. 人力资源员工离职分析

4. 财务数据

  1. TechCrunch 1500公司资金清单
  2. 佛罗里达州保险激进增长计划记录
  3. 用户收款效率财务分析
  4. 银行帐目财务分析
  5. 保险行业受天气影响因素分析

5. IT支持数据

  1. 支持桌面工单效率分析

6. 客户服务数据

  1. 客户服务数据分析
  2. 美国金融客户投诉数据
  3. 保险客户索偿记录
  4. 保险客户欺诈监控

7. 经营与运维数据

  1. 共享单车运营计划
  2. 网络游戏运营数据
  3. 在线广告点击统计

8. 供应链数据

  1. 在线商家物流发货数据

2017年3月18日星期六

高校教学与科研支撑数据资源:农业 Agriculture

美国农业部农作物大数据案例库  


国家植物数据队和植物材料计划的合作伙伴提供的全美1,078种植物及农产品符号,学名,俗称,事实表以及养殖指南的权威数据集文献,同时还提供了超过50,000幅植物及农作物图片。

水稻基因组大数据案例库 


水稻基因组计划是一项国际努力,来自89个国家序列的3,024个水稻品种基因组。合作组织包括:中国农业科学院,深圳华大基因研究院和国际水稻研究所(IRRI)。大米是在全球范围内领先的食物来源,而且是一个重要的作物研究,以解决粮食安全等全球性问题。通过这些基因组的分析,研究人员可以识别潜在的基因重要农艺性状,如加强营养,气候变化的耐受性,和抗病能力。

联合国粮食与农业组织大数据案例库


截止至2016年9月,全球粮食及农产品的生产,价格;农业排放;ASTI研发指标;贸易;投资;土地利用排放;应急响应;食物平衡;入口;环境指标;食品安全;人口;林业数据

2017年2月6日星期一

数据挖掘平台启动营(Data Mining Boot Camp)


1. 导入数据



这个教程的目的是决定一个客户是否会流失。因为对于一部分客户来说,这个答案是未知的,我们只能预测他们的忠诚度。Rapid Miner 根据已有的数据(客户)中已知的分类会员来预测。这个预测客户属于那个类别——在这个案例中为流失或是忠诚——的过程被称为分类。

2. 数据可视化



通过可视化让所有人读懂数据。


3. 创建训练模型



是时候建立一个用户创建训练模型的流程(分析化工作流程)了。这个流程可以找到能够用模型描述的预测性联系。如果你有模型规则和数据,你就可以预测输出。你会对整个数据集应用这个模型,从而了解哪些用户有可能流失。但是现在,在这个流程中,你会: 
  • 获取你的数据。 
  • 获取并配置你的流程需要的操作符(构建元素)。
  • 添加一个 Filter Examples 算子。
  • 过滤缺省值。 
  • 添加 Decision Tree 算子。 
  • 保存这个流程。

4. 应用模型



在这个部分你会将你前面建造的模型用到完整的(未经过滤的)数据集中。你的流程应该在 Design 视窗中,在 Process 视图中有 Create 培训数据集。

5. 模型评估



在本案例中,评估一个模型能多准确地预测流失非常重要。您可以使用已知结果的数据集来测试这个模型。需要注意的是,您不能使用已经被用来作为训练的数据来测试模型——否则的话,您会高估预测的质量。用于评估机器学习模型的实际标准和统计上来说比较好的方法是使用交叉验证。 交叉验证把培训数据集分成一定数量的块 (这个教程中分成10个块),它会测量每个迭代的性能,然后取每个性能值的平均值。例如,对于10个组合的流程来说: 

  1. 将数据分成 10 块同样大小,不交叉的集合。
  2. 用前 9 个集合块来训练模型。 
  3. 用最后一块数据集测试模型,记住性能值。 
  4. 重复 2,3两步,每次使用一个不同的训练子集。 
  5. 取这些性能值的平均值并返回这个平均值。