285
451
1万
超级版主
UFLDL教程 From Ufldl 说明:本教程将阐述无监督特征学习和深入学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。 本教程假定机器学习的基本知识(特别是熟悉的监督学习,逻辑回归,梯度下降的想法),如果你不熟悉这些想法,我们建议你去这里 机器学习课程 (http://openclassroom.stanford.ed ... rse=MachineLearning) ,并先完成第II,III,IV章(到逻辑回归)。
前言 ............................................................................... 1 第1章 使用R语言 ............................................................ 9 R与机器学习 .........................................................................................................10 第2章 数据分析 ............................................................ 36 分析与验证 ............................................................................................................36 什么是数据 ............................................................................................................37 推断数据的类型 ....................................................................................................40 推断数据的含义 ....................................................................................................42 数值摘要表 ............................................................................................................43 均值、中位数、众数 .............................................................................................44 分位数 ...................................................................................................................46 标准差和方差 ........................................................................................................47 可视化分析数据 ....................................................................................................49 列相关的可视化 ....................................................................................................68 第3章 分类:垃圾过滤 .................................................. 77 非此即彼:二分类 .................................................................................................77 漫谈条件概率 ........................................................................................................81 试写第一个贝叶斯垃圾分类器 ..............................................................................82 第4章 排序:智能收件箱 ............................................... 97 次序未知时该如何排序 .........................................................................................97 按优先级给邮件排序 .............................................................................................98 实现一个智能收件箱 ...........................................................................................102 第5章 回归模型:预测网页访问量 ............................... 128 回归模型简介 ......................................................................................................128 预测网页流量 ......................................................................................................142 定义相关性 ..........................................................................................................152 第6章 正则化:文本回归 ............................................. 155 数据列之间的非线性关系:超越直线 .................................................................155 避免过拟合的方法 ...............................................................................................164 文本回归 .............................................................................................................174 第7章 优化:密码破译 ................................................ 182 优化简介 .............................................................................................................182 岭回归 .................................................................................................................188 密码破译优化问题 ...............................................................................................193 第8章 PCA:构建股票市场指数 .................................. 203 无监督学习 ..........................................................................................................203 主成分分析 ..........................................................................................................204 第9章 MDS:可视化地研究参议员相似性 .................... 212 基于相似性聚类 ..................................................................................................212 如何对美国参议员做聚类 ...................................................................................219 第10章 kNN:推荐系统 .............................................. 229 k近邻算法 ............................................................................................................229 R语言程序包安装数据 ........................................................................................235 第11章 分析社交图谱 .................................................. 239 社交网络分析 ......................................................................................................239 用黑客的方法研究Twitter的社交关系图数据 ......................................................244 分析Twitter社交网络 ...........................................................................................252 第12章 模型比较 ........................................................ 270 SVM:支持向量机 ..............................................................................................270 算法比较 .............................................................................................................280 参考文献 .................................................................... 287
本书前两部分主要探讨监督学习(supervisedieaming)。在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。 监督学习一般使用两种类型的目标变量:标称型和数值型。标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{爬行类、鱼类、哺乳类、两栖类、植物、真菌};数值型目标变量则可以从无限的数值集合中取值,如0.100、42.001、〗000.743等。数值型目标变量主要用于回归分析,将在本书的第二部分研究,第一部分主要介绍分类。 本书的前七章主要研究分类算法,第2 章讲述最简单的分类算法:匕近邻算法,它使用距离矩阵进行分类;第3 章引入了决策树,它比较直观,容易迎解,但是相对难于实现;第4 章将讨论如何使用概率论建立分类器;第5 章将讨论1 % 1如0 回归,如何使用最优参数正确地分类原始数据,在搜索最优参数的过程中,将使用几个经常用到的优化算法;第6 章介绍了非常流行的支持向量机;第一部分最后的第7 章将介绍元算法— AdaBoost, 它由若千个分类器构成,此外还总结了第一部分探讨的分类算法在实际使用中可能面对的非均衡分类问题,一旦训练样本某个分类的数据多于其他分类的数据,就会产生非均衡分类问题。
无标题.png (459.44 KB, 下载次数: 810)
下载附件
2015-12-14 13:35 上传
序言 机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能?近年来,机器学习被成功地应用于很多领域,从检测信用卡交易欺诈的数据挖掘程序,到获取用户阅读兴趣的信息过滤系统,再到能在高速公路上自动行驶的汽车。同时,这个学科的基础理论和算法也有了重大的进展。 这本教材的目标是展现机器学习中核心的算法和理论。机器学习从很多学科吸收了成果和概念,包括统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等。我相信,研究机器学习的最佳途径是从这些学科的观点看待机器学习,并且以此来理解问题的背景、算法以及其中隐含的假定。这些在以往很难做到,因为在这一领域缺少包容广泛的原始资料。这本书的主要目的就是提供这样的一份资料。 由于素材的多学科性,这本书不要求读者具有相应的知识背景,而是在必要时介绍其他一些学科的基本概念,如统计学、人工智能、信息论等。介绍的重点是与机器学习关系最密切的那些概念。本书可以作为计算机科学与工程、统计学和社会科学等专业的大学生或研究生的教材,也可作为软件研究人员或从业人员的参考。指导这本书写作的两条原则为:1.它是在校大学生可以理解的;2.它应该包含博士生在开始研究机器学习前要掌握的内容。 指导这本书写作的第三条原则是:它应该体现理论和实践两者的平衡。机器学习理论致力于回答这样的问题“学习性能是怎样随着给定的训练样例的数量变化的?”和“对于不同类型的学习任务,哪个学习算法最适合?”利用来自统计学、计算复杂性和贝叶斯分析的理论成果,这本书讨论了这一类理论问题。同时本书也覆盖了很多实践方面的内容:介绍了这一领域的主要算法,并阐明了算法的运行过程。一些算法的实现和数据可以在互联网上通过网址http://www.cs.cmu.edu/~tom/mlbook.html 得到。其中包括用于人脸识别的神经网络、用于信贷分析的决策树学习、及分析文本文档的贝叶斯分类器各自的源代码和所需数据。我很感谢那些帮助我创建这些在线资源的同事,包括Jason Rennie、Paul Hsiung、Jeff Shufelt、Matt Glickman、Scott Davies、Joseph O’Sullivan、Ken Lang、Andrew McCallum 和ThorstenJoachims。
使用道具 举报
本版积分规则 发表回复 回帖后跳转到最后一页
查看 »
|Archiver|手机版|小黑屋|陕ICP备15012670号-1
GMT+8, 2025-2-23 05:24 , Processed in 0.070395 second(s), 36 queries .
Powered by Discuz! X3.2
© 2001-2013 Comsenz Inc.