离群点检测
定义基本定义离群点检测(异常检测)是找出其行为不同于预期对象的过程,这种对象称为离群点或异常。
离群点和噪声有区别,噪声是观测变量的随机误差和方差,而离群点的产生机制和其他数据的产生机制就有根本的区别,同一批数据产生方式可能不一样。
全局离群点:通过找到某种合适的偏离度量方式,将离群点检测划为不同的类别;全局离群点是情景离群点的特例,因为考虑整个数据集为一个情境。
情境离群点:又称为条件离群点,即在特定条件下它可能是离群点,但是在其他条件下可能又是合理的点。比如夏天的28℃和冬天的28℃等。
集体离群点:个体数据可能不是离群点,但是这些对象作为整体显著偏移整个数据集就成为了集体离群点。
补充学习
有些模型的表现一直不错,建议优先考虑。对于大数据量和高纬度的数据集,Isolation Forest算法的表现比较好。小数据集上,简单算法KNN和MCD的表现不错。
聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。
簇:把数据划分为不同类别,机器学习给这个类别定义一个新的名字—簇。
离群点检测目前遇到的挑战
正常数据和离群点的有效建模本身就是个挑战,数据没有 ...