机器学习知识库

系统学习机器学习算法原理与项目实践

机器学习基础

什么是机器学习?

机器学习是一种让计算机从数据中学习规律、模式,并做出预测的技术。

监督学习

使用带标签的数据训练模型,学习输入到输出的映射关系。

分类 回归

特征工程

将原始数据转换为机器学习算法可以理解的格式的过程。

关键步骤

算法详解

随机森林

随机森林是一种集成学习方法,通过构建多个决策树并进行投票来做出最终预测。适用于分类和回归问题,具有良好的抗过拟合能力。

本项目参数: n_estimators=100, max_depth=10

梯度提升树

梯度提升树是一种强大的集成学习算法,通过迭代优化损失函数逐步提升模型性能。在处理复杂数据模式时表现优异。

本项目参数: n_estimators=100, max_depth=5

神经网络 (MLP)

多层感知器(MLP)是一种前馈神经网络,能够学习数据中的复杂非线性关系。本项目使用三层结构(128, 64, 32)处理红球和蓝球预测。

本项目参数: hidden_layer_sizes=(128, 64, 32)

项目实践

数据流程

从MySQL数据库加载历史数据,进行预处理、特征工程,最后输入模型进行预测。

数据加载 预处理

模型训练

使用历史数据训练三种模型,保存为pkl文件供后续使用。

训练 持久化

学习资源

推荐书籍

  • 《机器学习》 - 周志华
  • 《统计学习方法》 - 李航
  • 《Python机器学习》 - Sebastian Raschka

在线课程

  • Coursera机器学习课程 - Andrew Ng
  • 吴恩达机器学习课程 (Bilibili)