Loading

soarli

吴恩达机器学习课堂笔记
2.21第一次上课第一节 : Welcome你或许每天都在不知不觉中使用了机器学习的算法每次,你打开谷歌、必应搜索...
扫描右侧二维码阅读全文
21
2020/02

吴恩达机器学习课堂笔记

2.21第一次上课

第一节 : Welcome

你或许每天都在不知不觉中使用了机器学习的算法每次,你打开谷歌、必应搜索到你需要的内容,正是因为他们有良好的学习算法。谷歌和微软实现了学习算法来排行网页每次,你用Facebook或苹果的图片分类程序他能认出你朋友的照片,这也是机器学习。每次您阅读您的电子邮件垃圾邮件筛选器,可以帮你过滤大量的垃圾邮件这也是一种学习算法。

在这门课中,将学习到关于机器学习的前沿状况。但事实上只了解算法、数学并不能解决你关心的实际的问题。所以,我们将花大量的时间做练习,从而你自己能实现每个这些算法,从而了解内部机理。

为什么机器学习如此受欢迎呢?原因是,机器学习不只是用于人工智能领域。

我们创造智能的机器,有很多基础的知识。比如,我们可以让机器找到AB之间的最短路径,但我们仍然不知道怎么让机器做更有趣的事情,如web搜索、照片标记、反垃圾邮件。我们发现,唯一方法是让机器自己学习怎么来解决问题。所以,机器学习已经成为计算机的一个能力。

机器学习被用于数据挖掘的原因之一是网络和自动化技术的增长,这意味着,我们有史上最大的数据集比如说,大量的硅谷公司正在收集web上的单击数据,也称为点击流数据,并尝试使用机器学习算法来分析数据,更好的了解用户,并为用户提供更好的服务。这在硅谷有巨大的市场。再比如,医疗记录。随着自动化的出现,我们现在有了电子医疗记录。如果我们可以把医疗记录变成医学知识,我们就可以更好地理解疾病。

再如,计算生物学。还是因为自动化技术,生物学家们收集的大量基因数据序列、DNA序列和等等,机器运行算法让我们更好地了解人类基因组,大家都知道这对人类意味着什么。再比如,工程方面,在工程的所有领域,我们有越来越大、越来越大的数据集,我们试图使用学习算法,来理解这些数据。

在机械应用中,有些人不能直接操作。

例如,我们不知道如何写一段程序让直升机自己飞。我们唯一能做的就是让计算机自己学习如何驾驶直升机。

手写识别:现在我们能够非常便宜地把信寄到这个美国甚至全世界的原因之一就是当你写一个像这样的信封,一种学习算法已经学会如何读你信封,它可以自动选择路径,所以我们只需要花几个美分把这封信寄到数千英里外。

比如今日头条、淘宝、百度、网易云音乐,他们有百万的用户;但他们没有办法为百万用户,编写百万个不同程序。软件能给这些自定制的建议的唯一方法是通过学习你的行为,来为你定制服务。

最后学习算法被用来理解人类的学习和了解大脑。

接下来,我们将开始给更正式的定义,什么是机器学习。然后我们会开始学习机器学习的主要问题和算法你会了解一些主要的机器学习的术语,并开始了解不同的算法,用哪种算法更合适。

第二节 : What is Machine Learning

第一个机器学习的定义来自于Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。

Samuel的定义可以回溯到50年代,他编写了一个西洋棋程序。这程序神奇之处在于,编程者自己并不是个下棋高手。但因为他太菜了,于是就通过编程,让西洋棋程序自己跟自己下了上万盘棋。

通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之,这西洋棋程序明白了什么是好的布局,什么样是坏的布局。然后就牛逼大发了,程序通过学习后,玩西洋棋的水平超过了Samuel

上述是个有点不正式的定义,也比较古老。另一个年代近一点的定义,由Tom Mitchell提出,来自卡内基梅隆大学,Tom定义的机器学习是,一个好的学习问题定义如下,他说,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。

经验E 就是程序上万次的自我练习的经验而任务T 就是下棋。性能度量值P,就是它在与一些新的对手比赛时,赢得比赛的概率。

目前存在几种不同类型的学习算法。主要的两种类型被我们称之为监督学习和无监督学习。监督学习这个想法是指,我们将教计算机如何去完成任务,而在无监督学习中,我们打算让它自己进行学习。

监督学习 : Supervised Learning

假如说你想预测房价:

横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套750平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。

那么关于这个问题,机器学习算法将会怎么帮助你呢?

我们应用学习算法,可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖$\$150,000$,当然这不是唯一的算法。

可能还有更好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近$\$200,000$。

稍后我们将讨论如何选择学习算法,如何决定用直线还是二次方程来拟合。两个方案中有一个能让你朋友的房子出售得更合理。这些都是学习算法里面很好的例子。以上就是监督学习的例子。

可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。比如你朋友那个新房子的价格。

用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。

一般房子的价格会记到美分,所以房价实际上是一系列离散的值,但是我们通常又把房价看成实数,看成是标量,所以又把它看成一个连续的数值。

回归这个词的意思是,我们在试着推测出这一系列连续值属性。

另外一个监督学习的例子:假设说你想通过查看病历来推测乳腺癌良性与否,假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大,所以人们显然会很在意这个问题。

让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出1和0表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为1,良性则记为0。

有5个良性肿瘤样本,在1的位置有5个恶性肿瘤样本,机器学习的问题就在于,你能否估算出已知大小的新的肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题。

分类指的是,我们试着推测出离散的输出值:0或1良性或恶性,而事实上在分类问题中,输出可能不止两个值,这时我们可以将它们的结果映射到一条水平线上。

在其它一些机器学习问题中,可能会遇到不止一种特征。举个例子,我们不仅知道肿瘤的尺寸,还知道对应患者的年龄。

在其他机器学习问题中,我们通常有更多的特征,比如肿块密度,肿瘤细胞尺寸的一致性和形状的一致性等等,还有一些其他的特征。这就是我们即将学到最有趣的学习算法之一。

上图中列举了总共5种不同的特征,坐标轴上的两种和右边的3种,但是在一些学习问题中,你希望不只用3种或5种特征。

相反,你想用无限多种特征,好让你的算法可以利用大量的特征,或者说线索来做推测。

那你怎么处理无限多个特征,甚至怎么存储这些特征都存在问题,你电脑的内存肯定不够用。

我们以后会学一个算法,叫支持向量机,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。

想象一下,我没有写下这两种和右边的三种特征,而是在一个无限长的列表里面,一直写一直写不停的写,写下无限多个特征,事实上,我们能用算法来处理它们。

现在来回顾一下,这节课我们学习了监督学习

其基本思想是,我们数据集中的每个样本都有相应的“正确答案”。

再根据这些样本作出预测,就像房子和肿瘤的例子中做的那样。我们还介绍了回归问题,即通过回归来推出一个连续的输出,之后我们介绍了分类问题,其目标是推出一组离散的结果。

现在来个小测验:假设你经营着一家公司,
你想开发学习算法来处理这两个问题:

1.  你有一大批同样的货物,想象一下,
你有上千件一模一样的货物等待出售,
这时你想预测接下来的三个月能卖多少件?

2.  你有许多客户,这时你想写一个软件来检验
每一个用户的账户。对于每一个账户,
你要判断它们是否曾经被盗过?

那这两个问题,它们属于分类问题、还是回归问题?

问题一是一个回归问题,因为你知道,
如果我有数千件货物,我会把它看成一个实数,
一个连续的值。因此卖出的物品数,也是一个连续的值。

问题二是一个分类问题,因为我会把预测的值,
用 0 来表示账户未被盗,用 1 表示账户曾经被盗过。
所以我们根据账号是否被盗过,把它们定为0 或1,
然后用算法推测一个账号是 0 还是 1,因为只有少数的离散值,
所以我把它归为分类问题。

以上就是监督学习的内容。

无监督学习 : Unsupervised Learning

上个视频中,已经介绍了监督学习。回想当时的数据集,如图表所示,这个数据集中每条数据都已经标明是阴性或阳性,即是良性或恶性肿瘤。所以,对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案,是良性或恶性了。

在无监督学习中,我们已知的数据不同于监督学习的数据的样子,它们没有任何的标签或者是有相同的标签。针对数据集,无监督学习就能判断出数据有多个不同的聚集簇(聚类算法)。

如谷歌新闻,搜索非常多的新闻事件,自动地把它们聚类到一起。

聚类算法和无监督学习算法同样还用在很多其它的问题上。

其中就有基因学的理解应用。一个DNA微观数据的例子。基本思想是输入一组不同个体,对其中的每个个体,你要分析出它们是否有一个特定的基因。技术上,你要分析多少特定基因已经表达。

这些颜色展示了相应的程度,即不同的个体是否有着一个特定的基因。你能做的就是运行一个聚类算法,把个体聚类到不同的类或不同类型的组(人)……

这个就是无监督学习,因为我们没有提前告知算法一些信息,比如,这是第一类的人,那些是第二类的人,还有第三类,等等。我们只是说,是的,这是有一堆数据。我们不知道数据里面有什么,不知道谁是什么类型。

我们没有给算法正确答案来回应数据集中的数据,这就是无监督学习。

无监督学习或聚集有着大量的应用。它用于组织大型计算机集群、社交网络的分析、市场分割,也可用于天文数据分析,聚类算法给出了令人惊讶、有趣、有用的理论,解释了星系是如何诞生的。聚类只是无监督学习中的一种。

鸡尾酒宴:
有个宴会房间里满是人,全部坐着,都在聊天,这么多人同时在聊天,声音彼此重叠,因为每个人都在说话,同一时间都在说话,你几乎听不到你面前那人的声音。

我们放两个麦克风在房间中的不同地方,离说话人的距离不同每个麦克风记录下不同的声音,虽然是同样的两个说话人。听起来像是两份录音被叠加到一起,我们可以借助算法把它们各自的声音从叠加的录音中分离出来。

这个算法可以就用一行代码来完成:

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

Octave,是免费的开源软件,使用一个像OctaveMatlab的工具,许多学习算法变得只有几行代码就可实现。

Octave中可以令人难以置信地、快速地实现这些学习算法。这里的这些函数比如SVM支持向量机)函数,奇异值分解Octave里已经建好了。

许多人在大硅谷的公司里做的其实就是,使用一种工具像Octave来做第一步的学习算法的原型搭建,只有在你已经让它工作后,你才移植它到C++Java或别的语言。

注:现在Python变主流了。

最后,总结下本节内容:

无监督学习,它是学习策略,交给算法大量的数据,并让算法为我们从数据中找出某种结构。

垃圾邮件问题:如果你有标记好的数据,区别好是垃圾还是非垃圾邮件,我们把这个当作监督学习问题

新闻事件分类:就是那个谷歌新闻的例子,我们看到,可以用一个聚类算法来聚类这些文章到一起,所以是无监督学习

细分市场的例子,可以当作无监督学习问题,因为只是拿到算法数据,再让算法去自动地发现细分市场。

最后修改:2020 年 04 月 01 日 10 : 37 PM

发表评论