机器学习早已被证明是很简单的,但也更容易被假设可以解决问题所有问题、限于于所有情况。和其他工具一样,机器学习在特定领域很有用处,尤其是那些你仍然都告诉有、但总有一天无法雇用充足的人来解决问题的问题;或者是那些有具体目标、但没具体构建方法的问题。尽管如此,每个企业的组织都可以以某种方式利用机器学习,在埃森哲最近的一项调查中,有42%的高管回应,他们预计到2021年我们完全所有创意项目背后都有人工智能的反对。但是,如果除去抹黑的话你能获得更佳的结果,通过理解机器学习能做到什么、无法做到什么,防止少见的误区。
误区1:机器学习就是人工智能机器学习和人工智能常常当成是同义词,机器学习就是指研究实验室走进现实世界最顺利的一项技术,而人工智能则是一个普遍的领域,覆盖面积了计算机视觉、机器人和自然语言处置等领域,以及不包括机器学习的约束符合等方法。可以把人工智能看见一切能让机器逆聪慧的方法。所有这些都不是一些人担忧不会与人类竞争甚至是反击人类的那种“人工智能”。
你要慎重看来各种风行词汇,尽可能做精准。机器学习是关于自学模式和预测大数据集的结果;其结果有可能看上去很“聪慧”,但核心是以前所未有的速度和规模运用统计学。
误区2:所有数据都是简单的要做到机器学习的话就必须数据,但并非所有数据都可用作机器学习。为了训练系统,你必须有代表性的数据,以涵括机器学习系统必须处置的模式和结果。
你所须要的数据不应当包括那些不相关的模式(例如照片表明所有站立起来的男士和所有坐着的女士,或者所有车辆都在车库中,所有自行车都在泥泞的场地中),因为你创立的机器学习模型将体现那些过分明确的模式,在你用于的数据中心查询这些模式。所有用作训练的数据都必须贴上标签,并且标记上那些与你向机器学习系统发问相匹配的特征,这就必须大量的工作。不要假设你早已享有整洁的、明晰的、具备代表性或更容易标记的数据。误区3:你总是必须大量的数据最近在图像识别、机器读者解读、语言翻译成和其他领域所获得的重大进展,主要是因为现在我们有了更佳的工具、需要并行处理大量数据的GPU等计算出来硬件、以及早已标记的大型数据集,还包括ImageNet和StanfordQuestionAnsweringDatase。
但是,因为有一种取名为移往自学的技巧,所以你并不总是必须大量数据才能在特定领域取得较好结果;忽略,你可以训练机器学习系统如何用于一个大型数据集展开自学,然后将其移往到你自己的小型训练数据集中于去。这就是Salesforce和MicrosoftAzure的自定义视觉API的工作原理:你只必须30-50张图像才可表明想分类的内容以取得好的结果。移往自学让你用于比较较较少的数据就可以为你的问题自定义预先训练好的系统。误区4:任何人都可以创建一个机器学习系统有很多用作机器学习的开源工具和框架,以及无数课程向教教你如何用于机器学习。
但机器学习依然是一项专有技术;你必须告诉如何打算数据并对其展开分区、训练和测试,你必须告诉如何自由选择最佳算法以及用于何种启发式算法,如何将其转化成为可信的生产系统。你还必须监控系统以保证随时间推移结果维持相关性;无论你所在市场的变化,还是你的机器学习系统充足好,最后你都会遇上有所不同的客户群,你必须持续检查该模型否与你的问题相符。准确利用机器学习必须经验;如果你刚跟上的时候,可以利用API预先训练可以从代码中调用的模型,同时聘请数据科学专家和机器学习专家来建构自定义系统。
误区5:数据中所有模式都是简单的哮喘患者、胸痛或心脏病患者、任何100岁以上老人的肺炎存活率远高于预期。不俗,实质上,一套非常简单的、设计可自动发送到住院通报的机器学习系统可能会通报他们回家(一种基于规则的系统,用完全相同的数据展开训练,就像神经网络那样)。之所以存活率这么低,是因为肺炎十分危险性,患者不会被立刻送往医院住院。
这个系统从数据中看见了一个有效地的模式;这对于自由选择谁必须住院来说并不是一种简单的模式(但是它可以协助保险公司来预测化疗费用)。更加危险性的是,你并不知道你的数据集中于有这种多余的反数据集,除非你早已告诉它的不存在。在其他情况下,一个系统可以自学一种有效地的模式(比如一种有争议的面部识别系统,可以从自拍电影中精确预测性取向),因为它没明晰而显著的说明,所以是多余的(在这种情况下,照片不会表明出有一些社交线索,例如照片姿势,而不是表明天生的某些特征)。“黑匣子”模型是有效地的,但没说道确切它们究竟教给了什么模式。
像标准化可选模型这样的则更加半透明一些,可解读的算法可以让我们更加确切模型的自学内容,从而可以要求否合适部署。
本文来源:球速体育-www.liteapp.net