生成模型和判定模型的内部指南

生成模型和判定模型的内部指南

字幕组双语原文:生成模型和判定模型的内部指南

英语原文:The Insiders’ Guide to Generative and Discriminative Machine Learning Models

翻译:AI研习社(季一帆


生成模型和判定模型的内部指南

图源:Photos HobbyUnsplash

在本文中,我们将讨论生成模型和判别模型之间的差异、形成原因及相关内容。

判别式机器学习在可能的输出选择中确定输出。该过程根据给定的数据进行训练,从而学习模型参数,以最大化联合概率P(X,Y)。

分类有时被称为判别模型,这有一定道理,毕竟分类模型就是要到输入实例的类别进行判断。

无监督模型一般会对输入变量的分布进行学习,并能够根据输入分布创建或生成新的实例,类似这样的模型称为生成式模型。

对于变量分布已知的情况,如高斯分布

由于生成模型能够总结数据分布,因此可以根据输入变量分布生成新变量。

在这种情况下,生成模型可能非常适合,而使用判别模型的化则会使问题复杂化,反之亦然。

例如对于条件预测任务,判别模型表现显著优于生成模型,同时具有更好的正则性。

生成模型和判定模型的内部指南

图源:Tran Mau Tri TamUnsplash

看这样一个例子:有Tony和Mark两个小朋友,他们要在宠物商店中分辨出小猫和小狗。对于宠物,我们假定它们包含颜色、大小、眼睛颜色、毛发长短和叫声等特征。

给Mark两张照片,一张是猫,一张是狗,Mark要做出判断。他想到可以根以下条件进行判断:如果叫声是“喵喵”、眼睛是蓝色或绿色、具有褐色或黑色的条纹,则大概率会是猫。根据这样的简单规则,Mark可以容易的识别出猫或狗。

Tony的任务可没这么简单。不是要他判断图片中是猫还是狗,而是要在两张白纸上画出猫和狗的样子。Tony能够画出猫和狗的样子,那么给他展示图片,他也很容易的区分出图中是猫还是狗。可以看到,相比Mark的方法,Tony的方法更加耗时。

假设只有猫狗两种宠物。如果一张图片上是蓝眼睛、棕色条纹的狗,那么Mark可能会将其标记为猫,但Tony可以判断出图片中一定是狗。

如果Tony对猫和狗的特征了解的更多,他能够绘制出更详细准确的图画。但是,如果提供足够多的猫狗数据集,那么Mark会表现得更好。

Mark的判断方法就是认真的观察,总结能够区分的特征,但过多的复杂特征会导致过拟合,但Tony不会遇到这种情况。

如果在访问宠物商店之前,他们没有任何信息呢?也就是说只提供未标注的数据。这种情况下,Mark完全不知道该怎么做,Tony也判别不出什么(因为他不知道“猫”“狗”这两个类别),但至少Tony可以根据看到的猫和狗去画图,这难道不是巨大的优势吗?半监督就是如此。

在上述例子中,Mark就是判别式方法,而Tony代表生成式方法。

生成模型和判定模型的内部指南

图源:Morning BrewUnsplash

再看另一个例子,将语音分类为语言模型。

判别式方法重点在区别语言模型间的差异。无需学习语言就可实现语音分类。而生成式方法需要学习每种语言,根据学习到的知识进行分类。

生成模型和判定模型的内部指南

图源:Antoine DautryUnsplash

数学上的区别

判别式机器学习训练模型在可能的输出选项中选择正确输出,通过训练学习使条件概率P(Y | X)最大化的模型参数。

生成式机器学习则是通过训练学习使联合概率P(X,Y)最大化的模型参数。通常可以由P(Y)和P(X | Y)得到联合概率,当前前提是P(Y)和P(X | Y)条件独立。

生成模型和判定模型的内部指南

图源:Markus SpiskeUnsplash

判别式模型

  • 逻辑回归

  • 随机森林

  • 支持向量机

  • 经典神经网络

  • 最近邻

生成式模型

  • 隐马尔科夫模型

  • 朴素贝叶斯

  • 贝叶斯网络

  • 混合高斯模型

生成模型和判定模型的内部指南

图源:Jon TysonUnsplash

为更好的理解,试着以下几个问题:(1 判别式;2 生成式)

  • 哪种模型需要较少的训练数据?1

  • 哪种模型能够生成数据?2

  • 什么时候使用某类模型?

  • 哪种模型对异常值更敏感?2

  • 哪种模型容易过拟合?1

  • 哪种模型训练时间短?1

  • 哪种模型直接学习条件概率?1

  • 在不确定情况下,哪种模型更好?2

  • 当特征存在关联时,哪种模型更好?2

  • 哪种模型具有更好的可解释性?2

  • 分类问题中,哪种模型准确率高?1

  • 对于未标注数据使用哪种模型?2

  • 如果是标注数据哪种模型更好?1

  • 哪种模型简单,训练速度更快?1

生成模型和判定模型的内部指南

图源:Photos HobbyUnsplash

GAN
生成对抗网络(GAN)同时训练生成器和判别器,具体而言,生成器生成一批样本,这些样本与真实数据集一起提供给判别器进行分类。

生成模型和判定模型的内部指南

判别式分类器的缺陷

  • 它缺乏先验性,结构性和不确定性

  • 黑盒子,变量之间的关系无法观测

生成模型和判定模型的内部指南

图源:Austin DistelUnsplash

结论

机器学习模型一般分为生成式和判别式两类,其中,生成式模型主要涉及建模操作,判别式模型一般用于分类问题。一般而言,生成式模型更具有解释力。

模型并不是越大越好、参数越多越好。更新更多参数意味着更长的训练时间、内存和计算量。一般而言,判别式模型有更好的正则性。

生成式模型所需的数据一般要比判别式模型更少。

参考文献

· Yogatama, D., Dyer, C., Ling, W., and Blunsom, P., 2017. Generative and discriminative text classification with recurrent neural networks. arXiv preprint arXiv:1703.01898.

· Lasserre, J.A., Bishop, C.M. and Minka, T.P., 2006, June. Principled hybrids of generative and discriminative models. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06) (Vol. 1, pp. 87–94). IEEE.

· Wang, K., Zong, C., and Su, K.Y., 2012. Integrating generative and discriminative character-based models for Chinese word segmentation. ACM Transactions on Asian Language Information Processing (TALIP), 11(2), pp.1–41.

· Prasad, A., Niculescu-Mizil, A., and Ravikumar, P.K., 2017. On separability of loss functions, and revisiting discriminative vs. generative models. In Advances in Neural Information Processing Systems (pp. 7050–7059).

最后,欢迎在Twitter和Linkedin上发表您的想法!你觉得本文对你有帮助吗?欢迎交流分享,联系方式@SauravSingla_08Saurav_Singla


雷锋字幕组是一个由 AI 爱好者组成的翻译团队,汇聚五百多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业变革与技术创新的见解。

团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

如果,你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。

生成模型和判定模型的内部指南

雷锋网版权文章,未经授权禁止转载。详情见转载须知

生成模型和判定模型的内部指南

(完)