技术领域 | 核心内容 | 实战项目 |
---|---|---|
数据检索系统 | Lucene4架构解析 | 百度式文档检索系统 |
集群处理 | Solr5分布式部署 | 海量数据实时检索 |
商业分析 | SPSS Modeler建模 | 客户价值分析模型 |
课程从数据采集处理技术起步,逐步深入到机器学习算法应用层。阶段重点掌握ETL数据清洗技术,通过开源Kettle工具实现异构数据源整合。
在数据立方技术模块中,学员将参与地震数据分析项目,运用MapReduce技术处理TB级地质数据。通过Spark MLlib构建预测模型,掌握时间序列分析技巧。
采用分层递进式教学设计,在R语言统计基础阶段,通过ggplot2可视化教学帮助学员快速建立数据直觉。进阶到Mahout时,重点解析推荐系统协同过滤算法的工程实现。