Rong

书单

书籍

创业维艰如何完成比难更难的事 在过去10多年间,科技进步极大地降低了开办新公司所要求的经济门槛,但是打造一流公司所需要的精神门槛–勇气–始终都没有降低过。 禅者的初心 我们必须抱着初学者的心,放开一切执著,了解万物莫不处于生灭流转之中。除刹那生灭的显现于目前的色相以外,别无一物存在,一物会流转为另一物,让人无法抓住。雨停之前,我们就可以听得到鸟鸣声。哪怕是下着大雪,我们一样可...

基础算法

排序 查找 数据结构

1.排序 冒泡 选择 插入 二分插入 希尔 堆排序 快速排序 归并 桶排序 计数排序 基数排序 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 4...

逻辑回归

逻辑回归笔记

原理 根据现有数据对分类边界线建立回归公式,以此进行分类 为了实现Logistic回归分类器,我们可以在每个特征上都乘以一个回归系数,然后把 所有的结果值相加,将这个总和代入Sigmoid函数中,进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分入1类,小于0.5即被归入0类。所以,Logistic回归也可以被看成是一种概率估计 损失函数 海维赛德阶跃函数 单位...

线性回归

线性回归笔记

最小二乘法 “普通最小二乘法”(ordinary least squares)。 一般解参数 特点 建模速度快,不需要很复杂的计算,在数据量大的情况下依然运行速度很快。 可以根据系数给出每个变量的理解和解释。 对异常值很敏感。 局部加权线性回归 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 def lwlr(...

深度学习花书

深度学习花书笔记

从原始数据中提取模式的能力,叫做 深度学习 逻辑回归 是否剖腹产 朴素贝叶斯 垃圾邮件分类 简单的机器学习算法依赖给定数据的表示,对表示的依赖是普遍现象 统计学的衍生物 问题:对特征难以提取 途径:使用机器学习发掘表示本身 不仅仅把表示映射到输出 什么:representation learning 表示学习 例子:自编码器 autocoder 原理:数据经过编码器和解码器...

决策树ID3

决策树笔记

ID3 ID3 初级 不适合大量特征的数据集 过拟合 信息增益 奥卡姆剃刀原理 更少的东西做更多的事 字典 ID3 即Iterative Dichotomiser 3,迭代二叉树3代,是Ross Quinlan发明的一种决策树算法 信息增益 信息期望 C4.5 C4.5算法优点:产生的分类规则易于理解,准确率较高。 缺点:在构造树的过程中,需要对数据集...

Bagging和Boosting

Bagging Boosting

Boosting 自举汇聚法(bootstrap aggregating),也称为bagging方法,是在从原始数据集选择S次后 得到S个新数据集的一种技术。 AdaBoosting方式每次使用的是全部的样本,每轮训练改变样本的权重。下一轮训练的目标是找到一个函数f 来拟合上一轮的残差。当残差足够小或者达到设置的最大迭代次数则停止。Boosting会减小在上一轮训练正确的样本的权重...

贝叶斯算法

贝叶斯

条件概率 1 2 P(A|B) = P(A and B)/P(B) 贝叶斯准则 P(A|B) = P(B|A)*P(A)/P(B) 公式 朴素 1.简单假设 特征独立 所需样本数 N^10000 => 10000*N 2.每个特征同等重要 实现方式 1.伯努利模型实现 不考虑词出现次数 2.多项式模型实现 考虑词出现次数 3.高斯模型实现 连续 词集模型 词袋模...

Apriori算法

关联分析 关联规则学习

关联分析 关联规则学习 频繁项集 {啤酒,尿布} 项集支持度 比例 可信度 {尿布} ➞ {葡萄酒} 支持度({尿布, 葡萄酒})/支持度({尿布}) Apriori原理 如果一个项集是频繁的那么其子集也是频繁,如果一个子集是非频繁的,那么父集也是非频繁的。 先验 来自以前 对于Apriori算法,我们使用支持度来作为我们判断频繁项集的标准。Apriori算法的目标是找到...

政治

政治笔记

马克思主义基本原理概论 马克思主义是关于无产阶级和人类解放的科学 马克思主义的创立与发展 马克思主义和马克思主义基本原理 1 2 3 4 5 6 7 1.马克思主义产生的社会根源,阶级基础,思想渊源 资本主义经济发展为马克思主义的产生提供经济、社会、历史条件。 无产阶级反对资产阶级的斗争日趋激化,对科学理论的指导提出了强烈的需求。 马克思与恩格...