重要概念:
互联网+:“互联网传统行业”,但这并不是简单的两者相结合,而是利用信息通信技术和互联网平台,将互联网与传统行业深度融合,创造新的发展生态它将充分发挥互联网优化和整合在社会资源配置中的作用,将互联网创新成果深度融合到经济、社会各领域,提高全社会创新力和生产力,形成以互联网为基础设施、工具实现的更广泛经济发展新形态
所谓拉依达准则,首先假设一组检查数据中只包含随机误差,对其进行计算处理得到标准偏差,以一定的概率确定一个区间,认为超过该区间的误差不是随机误差而是粗大误差,包括该误差该判别处理的原理和方法仅限于对正态分布或接近正态分布的样本数据的处理,在测量次数足够大的前提下,测量次数少时不可靠。
对可疑数据的取舍必须慎重。 试验进行中,发现异常数据的,应当立即中止试验,分析原因,及时纠正错误; 考试结束后,要先找原因,取舍数据。 但对异常数据必须谨慎,不能任意舍弃和修改。 在大多数情况下,通过观察异常数据,可以发现系统误差的原因,改进工艺和试验。
标准差算法:由标准差公式得到的样本标准差是对总体标准差的无偏估计,标准差算法从总体上刻画数据的分布状态和离散程度。
个人所悟:
该文主要相当于消除不良数据以提高交通数据质量,基于依达拉奉准则,但由于它适合大样本场合,通过一组数据进行了验证,表明结果合理。 因此,针对传统的数据预处理算法无法准确去除交通量较大的样本容量异常值的问题,创新性地设计了依达拉奉准则优化方法。
优缺点:
在一定程度上确实会提高数据的准确性,但另一方面,在大数据时代样本容量这么高,这有意义吗? 值得考虑!