如果样本数量是3,怎么做检验?
原文在此:
http://www.mitbbs.com/article_t/Statistics/31231595.html
网名jiansheng (月射寒江)在MITBBS的Statistics版里提问:“如果样本数量是3,怎么做test?”,并向读者比较详细地解释了该问题产生的背景(Thu Jun 17 18:27:51 2010, 美东,FROM: 155.91):
有3个animals按照两种方法veh和compound处理。第一天每个animal上都分别放了veh;第二天是wash time;第三天每个animal上放compound。然后有每个方法处理后每隔两个小时测的数据,其中还有不少是missing的。现在要看veh和compound的表现是否一致。
他对自己没有信心,进一步怀疑道:“问题是只有3个animal啊!请大家看看该怎么做。多谢。”
网名hypnos (sleep!+sleep!)建议说:“可以用t-test比一下AUC。”
网名为TNEGIETNI (lovewisdom)的我认为这个问题不能用此方法解决:“仅有三个观察对象,用什么方法都很难给出有效的检验结果,即使AUC也不行,因为我们很难从如此小的样本量得出变异的统计规律。当然,如果你将三个对象的AUC之间的差异看成是确定性的,那就另当别论了。”我进一步指出,这样说不是说就不可给出一个统计结论。对于如此小的样本,直接陈述观察结果就可以了,无需检验。如果你非要检验不可,尽管在检验的数学计算上没有困难,但在统计学的逻辑解释上几乎没有意义,因为你的检验结论将直接被你的过小样本量所怀疑或否定而不是得到证实。
jiansheng (月射寒江)回答说:“关键是,正是因为样本少,由观察得到的结果就不是很可信。好的地方是,VEH和COMPOUND差得实在很多。还有一些地方有MISSING,我在想能不能估计出来。”
网名为shinder (suibian+shinder)的就此评论说:“You have three animals but for each animal you have multiple observations, which means your estimates can be improved with multiple observations. The question is the generalizability. Your conclusion may not be generalized to a broader population.”
jiansheng (月射寒江)解释道:“我刚开始也是这么想的,后来觉得虽然无法估计(因为他测量的东西不是血压,等等),但是前后数据其实可以相互解释。多谢!”
TNEGIETNI (lovewisdom)不客气地说:“样本量如此小,还有missing values,一切都完了。只能说你的这个实验在统计上完全失败。已经没有什么可做的了。当然,你如果想靠自己的数学知识来估计并填补missing values,这就只能说你多少有点神性了。建议你还是放弃吧。我就不明白,对仅有的三个实验动物在不同时间点上的观察和测量怎么会有missing values产生?是仪器出了问题?还是你错过了时间?或是根本就测不到结果?”
zerk (阿呆):“sigh,虽然不想这么说,不过统计用在这样的dataset上基本就是招摇撞骗。。。”
DaShagen (Unbearable lightness):“just plot the data, i guess it really depends how the trend looks like.”
sir ( 郎):“people did microarray experiments with 3 replications all the time.”
hypnos (sleep!+sleep!):“这也没办法,做实验的也知道做300个好,可是太贵了啊,3个怕都over budget了。见过一个三只羊的实验,养一只一年的花费是5万美元,做这个实验得半年。”
PharmD (夜里发呆):“How strongly are his 前后数据 correlated?”
hopedale (hopedale):“你可以试一下 linear mixed effect model.”
hypnos (sleep!+sleep!)对hopedale (hopedale):“LMM with sample size 3 may not be a good option.”
shinder (suibian+shinder):“in this case, you may be able to get something more if you can model with the correlation.”
jiansheng (月射寒江)感叹说:“这些scientists自己设计、自己测量、自己运算分析,如果发现有问题了,再来找我们。我知道怎么去给他们说了。不管怎样,多谢讨论。”
zerk (阿呆)对hypnos (sleep!+sleep!):“其实我会更愿意写一个essay”
wrote (wrote)对jiansheng (月射寒江)的首问发表看法说:“I am a biologist, not a statistician. What biology people would do in this situation is pairwise t-test using the data from the timepoints where both groups (vhe and drug) are available. T-test of AUC is another option. Statisticians may not approve this, but if this paper is going to be published in a biology journal, you know what they say, when in
PharmD (夜里发呆)就此评论说道:“Unfortunately, "biology journal" reviewers now know more and more about statistics. Last time someone came to my boss and myself with some data from a completely-fucked-up experiment and asked us to analyze them, because her reviewers were not satisfied with those t-test results she reported in her manuscript. Big headache...”
TNEGIETNI (lovewisdom)也就此发表看法说:“无论你在那个领域,统计的基本原则和方法是一致的和严谨的。本LZ提出的问题可以说在统计学上无解。”
jiansheng (月射寒江)针对TNEGIETNI的无解说坚持道:“我发现他的数据,在某个时间点上的确是非常显著。后来我用他的mean、std、和size=3去估计power,得到90%,这个难道不是说明,在这样一个小样本情况下,还是能拿到比较显著的差异?”
TNEGIETNI (lovewisdom)不认同这个观点:“你这样的说法无疑表明你将每个样品的两种处理之间的差异看成是确定性的了。我已经说过了,对如此小的样本量做检验没有意义,无论你的实际数据给了你怎样的结果(诸如power,P value, etc.)。须知,统计检验的基础是在充分大量的样本观察的基础上对变异性导致的随机误差发生可能性的检验。仅有三个样本,你怎么能得到充分的变异性观察?没有这样的观察,怎么能判断随机误差发生的可能性?几乎不可能。”
jiansheng (月射寒江):“是啊。话是这么说。但是很多时候,做实验的就只有3条狗,3个猴子。。最少要多大样本?5个?6个?”
TNEGIETNI (lovewisdom):“如果实验条件控制得很好,试验动物的种属、出生时间、喂养方式、成长环境等非实验因素可以得到一致性保证,那么,在一个预试验中5~8例应该是最低要求了。”
careerchange (Stupid):“I am surprised to see that so many people think they know statistics, but they can not do a statistics test in a real world problem.
There are several tests can be done. One is to use 2-way anova, which is equivalent to pairwised t-test of the difference. Proc mixed can be used as well.
The variable can be an AUC, or a half-life, 30%-life, or a fixed time measurements, such as observations at 12 hour.
Missing values will not cause big problems. You can use LOCF for fixed time value, and linear interpolation for estimating AUC.
If a 3-sample leads to a significant results, it is a significant results. If a drug shows significantly better results than a standard drug on a 3-sample trial, do you conclude that the drug/trial is meaningless? Let's come back to the real world, it sure will cause a lot of interest. Why? Most good drugs are not significantly better than a standard one in a 3-subjects trial.”
TNEGIETNI (lovewisdom):“I don't agree with you. The missing values are a big problem for such a small sample, because the missing values means you don't know them. If you try to use a mathematical technique to estimate them, it means you take a certain assumption to fix the problem, which will cause a bigger problem in your result.”
littlebirds (dreamer) 对TNEGIETNI说:“Your view is too dogmatic.”
TNEGIETNI (lovewisdom)对littlebirds (dreamer) 说:“可否请你说明你的理由?我的观点的统计学基础是:三个观察对象,每个时点上只有三个观察值,任何一个或两个缺省了,你将没有任何基础来估计它们。而所谓的估计也就是一个数学的函数转换关系,而任何数学的函数转换就是试图用一个确定性的假设来估计一个非确定性的随机事件!这种行为本身从认识论的逻辑来说是荒谬的。
我知道在很多流行的统计算法甚至成熟的统计软件中都有对missing values的估计和填补以便尽可能地使用全部观察对象。我对这种做法持审慎的态度。除非样本量足够大,且缺省值的个数占总数的比例尽可能地小,例如小于5%,否则,不能滥用估计法。例如LZ提到的样本,三个样本中任意缺少一个,缺省值的比例将高达33%以上。
另外,为了阐明你的理由,请你顺便谈谈你对missing value的理解。”
jiansheng (月射寒江)对careerchange (Stupid)说道:“Thanks. Several People mentione AUC here? Why using AUC? what is the advantage of using AUC for this type of problem?”
MITBASIC (Tomorrow)就首问说道:“现在还没有开始学统计。我以前的实验发生过类似的现象:不过我都取同一生长条件下,外部因素一致,反正就是让样本的控制条件都一样,只取3个样本(没办法样本多了,累死我)来记录反应。好像目前都没有人质疑,不过不懂太多统计知识,就感觉样本越多越完善。”
ohyoo (kk)就TNEGIETNI的missing value的问题发表评论说:“Missing value是可以用数据之间相关性来估计的。这种貌似时间序列的数据应该会有比较强的trend,用interpolation来填空未尝不可。何况如果是用来估计AUC,本身就已经是个近似,就像曲线积分一样。
我的观点,只要是数据,不管数量多少,就会含有信息量。The important thing is how to appropriately make inference based on the data. 楼主的这个问题,如果frequentist的方法不够信服,或许可以考虑Bayesian的方法。
理论和应用总是有差别的。比如,样本未必是越多越好。对于假设检验来说, 如果样本太多,即使两个总体没差别也能得到显著的结果。对样本量的需要,一个很大的原因是很多检验是基于正态分布,只有当样本足够大的时候,统计量(比如sample mean)才近似正态。从逻辑上讲,这并非是说小样本的数据就不能做假设检验。这只是说明,如果你的数据很不normal而且样本量很小,那么t-test的power会很小。”
TNEGIETNI (lovewisdom):“你的观点中渗透着深刻的数学理性原则。然而很遗憾,统计学从一开始就不是从肯定和接受已有的数学理性原则为基础的;恰恰相反,它是从怀疑数学理性开始的。它的基础是对客观现实的经验观察,以便将一切知识建立在这种经验观察之上而非既有的数学理性之上!如果数学的理性可以为统计学所用,那么,对任何总体的观察需且只需两例即可,因为按照数学理性,两点可确立一条直线,由这条直线便可以得到该总体中的一切点的估计,因此,三个样本量已经过多了,会带来令数学家们烦恼不已的“noise = 噪声”。
这无疑是荒唐的!
用样本来描述总体的分布特征是统计学的唯一使命,而总体的无限性、可测性和随机可变性等将令一切现有的数学理性原则顿失光芒,由此人类对随机世界的认识将进入无法穷尽的可能性而变得终极困惑。为了超越这种终极的困惑,人们想出了统计学的逻辑与方法。这是迄今为止人类认知理性能够达到的终极高度。
Bayesian方法从本质上来说是一种先验理性的方法,但不是经验理性的方法。先验理性方法存在着一个根本缺陷,即最终结果中含有“主观”的假定前提,而这个主观的假定前提没有任何经验事实为依据。
人类认识世界的两个基本逻辑是归纳和演绎,其中归纳逻辑是提炼演绎逻辑的前提的方法,例如,在以下亚里士多德式的三段论演绎逻辑中
人必有一死,
苏格拉底是人,
所以,苏格拉迪必死。
这里的第一句是一个归纳结论,第二句是中间引据,第三句是关于中间引据的推论。
统计学就是试图将知识建立在经验观察的归纳基础之上,以便形成一个关于演绎逻辑的经验理性前提。Bayesian方法如果没有一个归纳结论作为前提,其方法将失去逻辑基础。不错,只要你假定一个先验概率,你就可以用Bayesian法得到一个结果。然而,概率的可测空间(或可假定空间)是[0,1],即它具有无限的可能性,因此,任何一个确定的先验概率的假定值在统计学上的意义都等于0,除非你能提供一个充分的根据来支持你对先验概率的假定。
任何一个missing value就是关于一个观察对象的某个变量(或属性)的未知测量,它原本不应该发生。对任何missing value的估计必须有充分的根据。像上述三个样本量中任何一个的missing,将无法由一个充分的根据来估计。你所说的估计就是“近似”、“就像曲线积分一样”等等从数学的角度来看:哇塞,很好,很理性!可是从统计学的角度来看简直就是胡言乱语,因为这样做与伪造数据毫无二致。
本LZ提供的实验背景和数据表明它是一个失败的实验数据,无法进行统计分析,只能直接陈述原始测量结果。”
ohyoo (kk):“不知所云。如果数学理性是你所描述的那样,数学家都要吐血了。两点能决定一条直线,前提是你知道那是一条直线。哪个数学家会测两点就决定两个变量之间是一个确定的直线关系?如果真是个直线,搞个linear regression可以啊,点少点没太大关系,只要你除了point estimates同时提供confidence interval就行了。关键是怎样make inference.
有个物理学家曾经说过,If your experiment needs statistics, you ought to have done a better experiment。这个观点好像和楼主有点相似之处。可是,恰恰是因为现实中实验条件不允许,取样不够多,种种制约因素,才有了统计的用武之地。大样本当然好,有了大样本一个CLT就搞定了,可是这现实吗。就我理解,statistics is about how to identify and summarize certainty of uncertainty。小样本一样可以有inference, 你只要别忘了报告你结果中的不确定性就行了。楼主对于Bayes的认识太偏颇,这个问题也太大,我就不多说了。我的本意是如果想避免用假设检验做似是而非的结论,可以用Bayes得出一个比如说关于mean difference的posterior, 一样可以summerize实验得到的信息。”
(讨论暂时止于此)