2017年3月18日星期六

高校教学与科研支撑数据资源:农业 Agriculture

美国农业部农作物大数据案例库  


国家植物数据队和植物材料计划的合作伙伴提供的全美1,078种植物及农产品符号,学名,俗称,事实表以及养殖指南的权威数据集文献,同时还提供了超过50,000幅植物及农作物图片。

水稻基因组大数据案例库 


水稻基因组计划是一项国际努力,来自89个国家序列的3,024个水稻品种基因组。合作组织包括:中国农业科学院,深圳华大基因研究院和国际水稻研究所(IRRI)。大米是在全球范围内领先的食物来源,而且是一个重要的作物研究,以解决粮食安全等全球性问题。通过这些基因组的分析,研究人员可以识别潜在的基因重要农艺性状,如加强营养,气候变化的耐受性,和抗病能力。

联合国粮食与农业组织大数据案例库


截止至2016年9月,全球粮食及农产品的生产,价格;农业排放;ASTI研发指标;贸易;投资;土地利用排放;应急响应;食物平衡;入口;环境指标;食品安全;人口;林业数据

2017年2月6日星期一

数据挖掘平台启动营(Data Mining Boot Camp)


1. 导入数据



这个教程的目的是决定一个客户是否会流失。因为对于一部分客户来说,这个答案是未知的,我们只能预测他们的忠诚度。Rapid Miner 根据已有的数据(客户)中已知的分类会员来预测。这个预测客户属于那个类别——在这个案例中为流失或是忠诚——的过程被称为分类。

2. 数据可视化



通过可视化让所有人读懂数据。


3. 创建训练模型



是时候建立一个用户创建训练模型的流程(分析化工作流程)了。这个流程可以找到能够用模型描述的预测性联系。如果你有模型规则和数据,你就可以预测输出。你会对整个数据集应用这个模型,从而了解哪些用户有可能流失。但是现在,在这个流程中,你会: 
  • 获取你的数据。 
  • 获取并配置你的流程需要的操作符(构建元素)。
  • 添加一个 Filter Examples 算子。
  • 过滤缺省值。 
  • 添加 Decision Tree 算子。 
  • 保存这个流程。

4. 应用模型



在这个部分你会将你前面建造的模型用到完整的(未经过滤的)数据集中。你的流程应该在 Design 视窗中,在 Process 视图中有 Create 培训数据集。

5. 模型评估



在本案例中,评估一个模型能多准确地预测流失非常重要。您可以使用已知结果的数据集来测试这个模型。需要注意的是,您不能使用已经被用来作为训练的数据来测试模型——否则的话,您会高估预测的质量。用于评估机器学习模型的实际标准和统计上来说比较好的方法是使用交叉验证。 交叉验证把培训数据集分成一定数量的块 (这个教程中分成10个块),它会测量每个迭代的性能,然后取每个性能值的平均值。例如,对于10个组合的流程来说: 

  1. 将数据分成 10 块同样大小,不交叉的集合。
  2. 用前 9 个集合块来训练模型。 
  3. 用最后一块数据集测试模型,记住性能值。 
  4. 重复 2,3两步,每次使用一个不同的训练子集。 
  5. 取这些性能值的平均值并返回这个平均值。

2016年11月7日星期一

大数据可视化 - 航空业务数据模型及航班延误分析

航空业是最早利用数据管理企业、运营生产的行业之一,数据量也更加巨大,如何利用全新的数据模型进行智能的航空管理,实现空天地海一体化大数据应用,是每一个航空人必须面对的挑战。ORACLE的航空业务数据模型是目前业界内最为领先的航空业务模型,全球48家大型航班公司采用ORACLE航空数据模型改善其飞行业务,提升乘客飞行体验。ORACLE航空业务数据模型是基于行业标准的企业级数据模型,超过370张表和8,500列关键属性数据;超过250张行业绩效评估和关键绩效指标;包含逻辑模型和经过优化的物理数据模型;专业的航空绩效评估和关键绩效指标;预定义的OLAP多维数据集、数据挖掘模型和报告;预定义的内部ORACLE航空业务数据模型实现层级之间的自动数据迁移;完善的商务智能元数据;易于扩展和客户化;可在任何GDS、DCS应用中使用;面向原子级数据的中央信息库;完整的元数据(端到端)。


1. 主页登录后显示的是一个通过不同地理位置起飞的航班,在航班业务上的数据整体统计,可以通过左下角的选择可以选择特定机场,以及选择航空公司,相关航空公司信息由于商业原因被隐藏,显示为AIRLINE 1/10/1000等。


2. 点击Routes,可以根据航线进行延误分析:默认显示的是从旧金山机场SFO飞往全美其他机场的航线延误分析:


3. 勾选右下角的HEAT MAP,可以采用热点图的格式,直观的了解从旧金山最为频繁的目的地城市:


4. 下拉窗口,显示的是全部航线的延误统计:


5. 在左下角的下拉框中,选择Origin Airport为洛杉矶机场(LAX),可以看到地图随即动态更新,并且相关的航线信息实现实时更新:


6. 在左下角的下拉框中,选择一条具体航线,如:洛杉矶到拉斯维加斯(LAX-LAS),仪表盘马上便能显示该航线的延误统计信息:


7. 继续导航至Delay Summary,显示各种延误原因的统计,包括:航空公司原因,空管控制,安全,以及天气;同时对准点,延误15分钟,延误15到60分钟,以及超过一小时的延误进行统计。从下图可以看出由于天气引起的延误是最大的延误起因,但大部分航班不会延误超过60分钟。


8. 选择Score Card可以看到每个航空公司的表现情况:



9. 选择Delay Analysis,可以看到根据飞行距离,飞行时间,起飞时间造成延误乘客的情绪表现,一个有趣的现象是,短途飞行(1000英里以内)过程中,乘客因为延误造成的情绪影响最大,而且越到晚上延误乘客情绪越激烈。但对于长途飞行(10000英里以上)的延误,乘客对于延误的情绪影响反而不激烈。


2016年11月2日星期三

大数据项目案例:数据新闻行业垂直认知及可视化分析


数据新闻大数据分析实战


全球各地政府、企业,乃至个人每天都在制造着海量数据。这些数据中又往往隐藏着“独家猛料”,吸引着越来越多的记者投身其中,进而在新闻行业中催生了数据新闻(Data Journalism)这一时髦的分支。大数据时代的记者有必要懂得如何获取“结构化的信息”,通过整理并准确地分析数据来挖掘出有价值的新闻。本课程目标在于利用数据新闻实用工具,完成从新闻主题定位,新闻数据获取,原始数据加工整理,数据可视化等数据新闻任务,以及帮助新闻传媒系的学生大家推开大数据之门,利用数据驱动讲新闻故事。

行业垂直工具及数据资源


除了标准的课程主题大纲与实验操作列表,同时为非计算机专业学生,提供快速提升数据素养的数据资源,大数据处理与分析工具:

  • 数据资源及工具:全球天气数据采集工具
  • 数据资源及工具:扫描文本OCR数据采集工具
  • 数据资源及工具:在线数据分析工具
  • 数据资源及工具:Google数据搜索增强性工具
  • 数据资源及工具:棒球数据快速采集
  • 数据资源及工具:800万个YouTube视频标签
  • 数据资源及工具:美联储经济数据采集接口
  • 数据资源及工具:非IT技术人员数据可视化框架
  • 数据资源及工具:历史经济数据和外汇图表
  • 数据资源及工具:VR虚拟现实场景秀
  • 数据资源及工具:推特数据检索
  • 数据资源及工具:分层数据的树状图可视化工具
  • 数据资源及工具:地理位置的社交新闻数据采集
  • 数据资源及工具:法律投诉在线资料数据库
  • 数据资源及工具:开源标签云制作工具
  • 数据资源及工具:数据处理及清洗引擎
  • 数据资源及工具:数据驱动新闻发布工具
  • 数据资源及工具:联合国全球城市生态环境数据
  • 数据资源及工具:城市地理坐标查询工具
  • 数据资源及工具:Ins图片搜索工具