主讲人

游兆阳(浙江大学-在校学生-计算机科学与技术学院-硕士生-计算机科学与技术-2018)

分享论文

Noisy labels learning

噪音标签学习

机器学习领域中,常见的一类工作是使用带标签数据训练神经网络实现分类、回归或其他目的,这种训练模型学习规律的方法一般称之为监督学习。在监督学习中,训练数据所对应的标签质量对于学习效果至关重要。如果学习时使用的标签数据都是错误的,那么不可能训练出有效的预测模型。同时,深度学习使用的神经网络往往结构复杂,为了得到良好的学习效果,对于带标签的训练数据的数量也有较高要求,即常被提到的大数据或海量数据。

矛盾在于:给数据打标签这个工作在很多场景下需要人工实现,海量、高质量标签本身费时费力,在经济上相对昂贵。因此,实际应用中的机器学习问题必须面对噪音标签的影响,即我们拿到的每一个带标签数据集都要假定其中是包含噪声的。进一步,由于样本量很大,对于每一个带标签数据集,我们不可能人工逐个检查并校正标签。

文章摘要

深度学习需要大量的标注样本,为了减少人工标注的成本,许多时候公司会采取搜索引擎,社交平台信息等方式获取数据。这些来源的数据都不一定是可靠的。在我们这边,可能我们会通过app上用户自己标注的内容来获取ground truth。考虑到很多人不会在app里老实的填写性别生日等信息,所以也会不可避免的产生噪音。 再则,在PU learning ,自监督学习类似的工作中,我们如果对unlabeled sample 随机采样成neg sample 训练,这时候我们也可以把负样本看成有noisy的样本进行训练。

活动视频

https://b23.tv/BV1N5411b7V6