初识特征工程

说明:本篇博客主要摘自博客园使用sklearn做单机特征工程,进行了一定的删减和修改,主要侧重介绍了一些概念性的东西。

什么是特征工程

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程的本质是一项工程活动,目的是最大限度从原始数据总提取特征供算法和模型使用。总的说来,主要包含以下几个方面:

  • 特征使用方案
    • 要实现我们的目标需要哪些数据——基于业务理解,尽可能找出对最终结果有影响的所有因素
    • 可用性评估
      • 获取难度
      • 覆盖率
      • 准确率
  • 特征获取方案
    • 如何获取这些特征
    • 如何存储
  • 特征处理
    • 特征清洗

继续阅读

初识决策树算法

原文链接:Classification And Regression Trees for Machine Learning
决策树在预测性的建模机器学习中是一个非常重要的算法类型。经典的决策树算法已经发展了几十年,一些比较近代的变种(例如,随机森林)已经成为了目前最强有力的技术之一。

在本篇博客中,我们将会了解决策树算法——或者一个更加现代的名称:CARTClassification And Regression Tree

继续阅读

来写个逻辑回归吧(一)

前言

说来惭愧, 博客已经很久没更新了, 动过好几次笔, 写出来的东西自己都不忍心再看第二遍, 不想发上去浪费看客的时间

自己给自己的理由是这段时间的积累太少, 没法形成有效的总结

所以打算先静下心来做点没有过错的事情

技术总是没有过错的, 写点最近学习的一些事情吧

最近在看吴恩达的机器学习的课程(链接在这里https://mooc.study.163.com/smartSpec/detail/1001319001.htm, 网易的课程),

继续阅读