机器学习笔记(一) 监督学习和无监督学习

1.机器学习

   两条定义:



2.监督学习

   给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。

   监督学习的分类:回归(Regression)、分类(Classification

   回归:预测一个连续值,输入变量和输出用一个函数对应。

   分类:预测一个离散值,输入变量和离散的类别对应。


   举例:

   回归:对房地产数据也测房屋价格,面积已给定,价格可以看做是面积的函数,是一个连续的输出值。

          

  

   分类:通过肿瘤的大小预测是恶性还是良性,这是一个分类问题,输出是0和1两个离散值。0意味着良性,1意味着恶性。当然输出的值可以不止两个,可以有四种,良性、第一类肿瘤、第二类肿瘤、第三类肿瘤。

  

   上面的例子里只有一个特征,就是肿瘤的大小。但有时候特征不止一个,可能有两个或多个。如下图,特征就有五个,年龄和肿瘤的大小,还有右边的三个特征。


3.无监督学习

   在无监督学习中,没有任何的标签或者是有相同的标签,已知数据集,但不知道怎么处理,也不知道每个数据点是什么。它的结果我们一般不知道,但是可以通过聚类的方式去提取一个结构。他会把数据分成不同的簇,所以也叫聚类算法。

  

   无监督学习中,我们给出一组数据,用聚类算法将这组数据分成两个不同的簇,如上面右图所示。


   举例:

   Google News搜集网上的新闻,并根据新闻的主体将其分为许多簇,同一簇的新闻放在一起。如下图所示:

  


   一组不同的人,我们去测量他们的基因对一个特定基因的表达成都,再根据结果用聚类算法将他们分为不同的类型。只给出数据,但我们并不知道是哪一种类型的人,典型的无监督学习,如下图所示。

  


全部评论

相关推荐

自从我室友在计算机导论课上听说了“刷 LeetCode 是进入大厂的敲门砖”,整个人就跟走火入魔了一样。他在宿舍门口贴了一张A4纸,上面写着:“正在 DP,请勿打扰,否则 Time Limit Exceeded。”日记本的扉页被他用黑色水笔加粗描了三遍:“Talk is cheap. Show me the code。”连宿舍聚餐,他都要给我们讲解:“今天的座位安排可以用回溯算法解决,但为了避免栈溢出,我建议用动态规划。来,这是状态转移方程:dp[i][j] 代表第 i 个人坐在第 j 个位置的最优解。”我让他去楼下取个快递,他不直接去,非要在门口踱步,嘴里念念有词:“这是一个图的遍历问题。从宿舍楼(root)到驿站(target node),我应该用 BFS 还是 DFS?嗯,求最短路径,还是广度优先好。”和同学约好出去开黑,他会提前发消息:“集合点 (x, y),我们俩的路径有 k 个交点,为了最小化时间复杂度,应该在 (x/2, y/2) 处汇合。”有一次另一个室友低血糖犯了,让他帮忙找颗糖,他居然冷静地分析道:“别急,这是一个查找问题。零食箱是无序数组,暴力查找是 O(n)。如果按甜度排序,我就可以用二分查找,时间复杂度降到 O(log n)。”他做卫生也要讲究算法效率:“拖地是典型的岛屿问题,要先把连通的污渍区块都清理掉。倒垃圾可以用双指针法,一个指针从左往右,一个从右往左,能最快匹配垃圾分类。”现在我们宿舍的画风已经完全变了,大家不聊游戏和妹子,对话都是这样的:“你 Two Sum 刷了几遍了?”“别提了,昨天遇到一道 Hard 题,我连暴力解都想不出来,最后只能看题解。你呢?”“我动态规划还不行,总是找不到最优子结构。今天那道接雨水给我整麻了。”……LeetCode 真的害了我室友!!!
老六f:编程嘉豪来了
AI时代还有必要刷lee...
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务