笔下文学网

手机浏览器扫描二维码访问

本站弹窗广告每日仅弹出一次
尽可能不去影响用户体验
为了生存请广大读者理解

机器学习是“让机器从数据中长本事”的技术(第3页)

巧妇难为无米之炊,数据就是机器学习的“米”。

- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。

- 数据预处理:这步特别关键,就像淘米要去沙。包括:

- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。

- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。

- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。

2. 特征工程:给数据“化妆”,让模型看得更清楚

“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。

- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。

- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。

3. 模型训练:让机器“刷题涨本事”

选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。

- 训练过程中,得注意过拟合和欠拟合:

- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。

- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。

解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。

4. 模型评估:给机器“考试”打分

训练好的模型得测试一下准不准。常用的指标有:

- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。

热门小说推荐
星魂永曜

星魂永曜

星魂永曜情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的玄幻魔法小说,星魂永曜-王守辰-小说旗免费提供星魂永曜最新清爽干净的文字章节在线阅读和TXT下载。...

上门女婿都市至尊

上门女婿都市至尊

以下是为生成的相关内容:简介入赘三年,林羽在沈家饱受冷眼与欺辱,被视作毫无用处的废物。妻子沈梦璃对他态度冷淡,沈家上下动辄辱骂刁难。然而,无人知晓林羽实则是隐世古族的传人,身负绝世医术与高深武技。一场突如其来的危机,让林羽不得不展露实力。他凭借神奇医术妙手回春,救治重症患者;以强悍武技震慑宵小,化解重重危机。在都市......

巴别塔下byKi

巴别塔下byKi

《巴别塔下byKi》巴别塔下byki目录全文阅读,主角是东方夜东方言小说章节完整质量高,包含结局、番外。本文由池鱼独家整理,内容版权归作者所有!如果觉得这本书不错,请购买正版书籍,感谢对作者的支持!如不慎该资源侵犯了您的权益,请麻烦通知我及时删除,谢谢!巴别塔下(nh+末世+无限流)作者ki內容簡介那些杀不死你的终将使你一路成神,...

出塞之百年黄沙

出塞之百年黄沙

汉元帝年间,护送昭君出塞的队伍行至某处古城遗迹时,护卫竖爷与他的外甥三恒遭遇异变,来到了几千里之外的西域。更加悲剧的是,他们发现整个西域大地被无形结界封锁,归乡之路断绝。为了返乡,舅甥二人踏上了追寻之旅,从蒲类的月牙山谷到乌秅的莽莽群山,最终在神秘道人的指引下,踏入了神奇的山海界。在山海界,他们与一群志同道合者,历......

快穿:一见钟情

快穿:一见钟情

快穿:一见钟情情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,快穿:一见钟情-华澄-小说旗免费提供快穿:一见钟情最新清爽干净的文字章节在线阅读和TXT下载。...

我的命盘不太正经

我的命盘不太正经

在苍澜仙界,修士以命盘沟通天地灵气,命盘若显异象,必成大能。然世道艰险,各派林立,既有名门正派如“云霄宗”,也有歪门邪道如“赌鬼坞”“整蛊谷”。而我们的主角陆小川,一个在山村靠偷鸡摸狗度日的泼皮,却在某次偷喝山神庙供酒后,激活了史上最不正经的命盘——别人命盘显青龙白虎,他的命盘第一星位,竟是个旋转的夜壶。......