数据处理的原则是随研究对象的实际环境而改变的。首先,封闭系统的数据处理原则和开放系统的数据处理原则是有本质区别的。
经典力学的理想实验(封闭系统)的数据处理原则是:在精确的满足理想条件下,保留全部的原始数据,以检验理论预计的结果与实验结果的差别。
如果理论是精确的,则结果是确定性的。从而,我们希望通过实验数据的发散情况来判断理论是否精确。此时,如果把发散的数据变成是光滑的(非常流行的数据平滑处理),那就是想证明理论结果在统计意义上是正确的;如果是强调发散性,那就是想证明理论在何种误差尺度上是正确的。
对于此类实验数据,如果实验的条件不变,人为的把与理论不合的发散数据去掉而不加说明(就好象是这类与理论不符的数据压根就没有出现在实验中),只保留与理论一致的数据就是错误的做法,此类论文很流行,尤其是研究者“热爱”某个理论时。如果是只保留发散大的数据,而否定数据有很大的光滑性,也是错误的做法,此类论文也很流行,尤其是研究者想否定他想“推翻”的某个理论时。这是违反学术规范的。
但是,现实的很多研究对象是一个处于开放环境下的系统。我们能做的很多实验观察也是开放性实验。尽管在实验中,我们可以尽可能把系统封闭起来,但是,这种封闭是不完备的,从而,无法构成实质上的封闭性实验(由于研究者个人学术水平,他可能主观上认为是封闭的)。如果研究者把一个开放实验误认为是封闭实验,把实验数据与理论结果对比,抛弃与理论不合的数据而不加说明,同时,下结论说:理论与实验一致,那是一种学术错误,属于编造理论。反之,明知是开放系统而刻意为之,那才是学术造假。
但是,对于开放系统,把实验数据与理论结果对比,抛弃与理论不合的数据就是非常正常的。这就是现代数据处理技术的核心。一般地说,对于开放系统,我们的理论是预计有某种确定性的数据特征,而实验的目的是检验这个特征与理论预计是否吻合。在某种意义上讲,对所提取特征有贡献的数据是需要保留的,而对无贡献的数据,把它们看成是噪音,消灭此类无效数据是必须的。这就是维纳滤波理论的核心哲学思想。
也就是说,开放系统的数据处理原则和封闭系统的数据处理原则是有本质区别的。
当然,这类滤波不是随意的。其学术理论是需要深入学习才能把握的。
如果理论预计有某种特定属性的数据淹没在原始数据中,构造相应的处理后数据而获得这种特定属性的数据,那就证明理论是对的。这就是正演问题。
但是,由经过处理后的数据而获得这种特定属性的数据并不能证明理论是对的,只不过是证明理论可能是对的。这就是反演问题。一般地说,反演问题的结论是非唯一的。
这就是第二个要点:对开放系统,经处理后的实验结果不能反过来证明理论是对的,只能证明理论可能是对的。理论的正确性的证明是靠正演完成的。这就与封闭系统完全可以用实验数据证明理论是对的有着本质的区别了。
这类正演证明的基础是基于经典理论的确定性,也就是说基于封闭系统理论的正确性。
也就是由于这样的一个原因,有很多的研究工作是想象一个理论,用处理后的数据“证明”理论是正确的(称为数据处理技术的烂用)。其错误在那呢?在于:你基于的理论必须是能用封闭系统实验独立证明的。
这就是第三个要点:不当的数据处理会产生伪科学结论。但是,这是学术水平层面的,与数据造假是要区分开的。
对王闻数据处理的质疑:有来自开放系统观的,有来自封闭系统观的,也有来自想当然的。但是,无论如何,闻的数据属于开放系统的数据,他有权作出他认为合理的取舍(数据处理的低级形式),如果取舍不当是学术水平问题,只能推翻其论文结论的(绝对)正确性。这是不能上升到数据造假的。属于数据处理与科学推理的方法不当,只是学术水平问题。