Hands-On Machine Learning with Scikit-Learn and TensorFlow 阅读笔记(第一章)

本章说明的问题

  • 什么是机器学习
1
机器学习即是电脑程序能够从数据中学习规律.
  • 为什么要使用机器学习
1
2
以垃圾邮件识别器为例,若使用传统的提取规则、编写规则的方法,需要不断的更新规则。
若使用机器学习的方法,则可以将数据喂给算法,让算法去对数据进行分类。
  • 机器学习的分类

    • 是否受人的监督

      • 有监督

        1
        2
        3
        4
        5
        6
        7
        分类算法,如kNN(k-Nearest Neighbors)
        线性回归
        逻辑回归
        支撑向量机SVM
        决策树
        随机森林
        神经网络。
      • 无监督

        1
        2
        3
        4
        算法有
        * k-Means
        * 分级簇分析
        * 期望最大化
      • 半监督

      • 强化学习
    • 是否能进行增量学习
      • 在线学习
      • 批量学习
    • 对新数据的处理方式
      • 基于实例
      • 基于模型

机器学习的挑战

  • 数据质量较差

统计学方面的知识,搜集的数据样本不能全面体现特征

  • 不具有代表性的数据
  • 过拟合以及欠拟合

机器学习的简单步骤

  • You studied the data.

  • You selected a model.

  • You trained it on the training data (i.e., the learning algorithm searched for the model parameter values that minimize a cost function).

  • Finally, you applied the model to make predictions on new cases (this is called inference), hoping that this model will generalize well.