统计学的新地平线——陈立功与他的自权重曲线
A new horizon of Statistics: Ligong Chen and his Self-weight Curves
版上有人对我在统计学里造新词满怀……。是的,我确实造了几个新词,诸如
1)随机常量(random constant, 事实上,我们每个人的生命的每一刻就是一个random constant。这个生命的全部属性在那一刻具有不变的确定性,但却具有随机性。)
2)常量期望(constant expectation, 即一个常量自己,或一个不变量。当我们对一个存在的最大期望等于对它的最小期望时,它就是一个不变量,或常量。它是随机变量的对立面。)
3)随机对应(random correspondence, 严格地说,这个词不是我造的。它早就存在于人们的思维活动中,只不过我可能是第一个尝试了从数学的角度给出一个严格定义的人,尽管我的定义所采用的数学表述语言和格式并不100%的严谨,但我给出的定义的逻辑思路应该是可行的)
4)全域回归(fullwise regression,这个词是相对于分段回归(piecewise regression)而提出的,以便在更加广阔的背景下思考回归分析的问题时不至于引起思维的逻辑障碍或混乱。目前,它已经被统计学界的网络词汇系统所收录)
5)三分回归分析(trichotomic regression analysis,这是一个特定形式的分段回归分析的策略。在我的文章中的全称是functionalized general trichotomic regression analysis)
6)(分段或临界模型的)残差收敛率(convergence rate of residuals,它是分段或临界回归分析中用来构造随机临界点的权重的一个随机测量或随机变量)
7)加权平均临界点(weighted mean threshold,即抽样临界点的期望估计是一个加权均数)
8)(临界回归模型间的)连续性检验(continuity test,这显然是一个比强制连续性更好的统计学概念,因为前者意味着连续性的非确定性因而需要一个概率进行推断,而后者则意味着连续性的确定性。请问,有哪位能够对随机系统的临界模型间的连续性或离断性给出一个确定性的假设?Spline模型可能是数学家们在统计学领域犯下的一个严重错误,或者说是科学史上的一个悲剧。)
9)尺度空间(scale space, 即kolmogorov所定义的样本空间)
10 (累积)点对点的差异性((cumulative) point-to-point differentiality)
11)(累积)点对点的相似性((cumulative) point-to-point similarity)
12)自权重和自权重曲线(Self-weight and self-weight curve, 严格来说,自权重的概念是我盗用他人所创的概念,因为我对这个概念有着自己独到的见解并提出了一个全新的数学算法。它应该可以被称为是统计学的新地平线,而自权重曲线就是这道新地平线上最靓丽的风景。)
此外,任何人都可以在读完了我的文章后构造一个新词,例如
13)三分迭代法(trichotomic iteration method, TIM)。
当然,还有其它几个新术语。构造新词根本不是什么异想天开,而是创新性思维活动中普遍存在的简单事情。没有新的概念的产生就没有新的思想,也就没有任何理论突破的可能性。在不久的将来更多的新词汇还将从我的脑海里蹦出来。
我对现行统计学理论和实践的另一个主要批判就是对最优化提出了强烈的否定。这个否定足以引发整个学术界的地震,因为在我看来,最优化是数学家们在随机系统中犯下的另一个严重错误或悲剧。这也是为什么众多统计期刊拒绝发表我的文章的主要原因。
以上就是一个毕业于国内医学院/公共卫生学院的统计学master在过去的时间里在统计学领域所作出的主要的理论和方法学的贡献。最后,借此机会奉劝那些不能领会和理解我所提出的概念和新思想的人最好离它们远点。
(照片说明:本照片拍摄于2011年2月28日,地点是USUHS的办公室。屏幕上方是服从正态分布的随机模拟样本(sample size=100000)的自权重曲线,而下方是一个服从左偏态分布sample size=2480)的随机样本的自权重曲线。横坐标是一个连续型随机变量,纵坐标是自权重,其可测空间是[0, 1],两个分布的自加权期望都在其曲线的顶点处,表明一个连续性随机变量的自加权期望是一个无偏估计。由于远离期望的自权重趋于减小甚至于0,因而自加权期望的估计具有极高的准确性和稳定性。因此,一个随机测量的自加权期望估计可以被用来取代很多形式的最优化估计,例如最大似然估计,因为后者不过是一个随机的点估计而已。这句话意味着所有建立在最大似然估计或者更广义的optimizer上的方法论,都将被改造成以其自权重期望估计来决定其统计模型或统计决策。)
drburnie (专门爆料):算了,今天不骂人了,免得斑竹难办。
TNEGIETNI (lovewisdom):谢谢你终于管住了你的嘴巴。我也认为,如果一个人在看了这篇文章后在此骂人的话,那他的脑袋一定是在抓狂了。
drburnie (专门爆料):是啊,你都已经这么loser了,我也就没必要往你的伤口撒盐了。
TNEGIETNI (lovewisdom):You are so ridiculous. I have everything that I would like to have; I lose nothing that I did not want to lose; More important, I created everything that I have wanted to create.
dreamdate (dreamdate@WW):行为艺术?
TNEGIETNI (lovewisdom):对于我来说,讨论科学概念和学术问题并非行为艺术。你认为呢?
dreamdate (dreamdate@WW):你要的不就是别人对你工作的承认么,不幸的是在这个版上估计一个知音也遇不到。我看你写宗教回忆录还是一把好手,当文学青年可能更适合。好言劝一句,不要再冒充专家了,为什么一定要和自己过不去。
TNEGIETNI (lovewisdom):I have said taht “最后,借此机会奉劝那些不能领会和理解我所提出的概念和新思想的人最好离它们远点。”It looks like that you even don't understand what I am saying.
dapangmao (无敌大胖猫): Cong! BTW, which software did you use?
TNEGIETNI (lovewisdom):only SAS.
Actuaries (striving):I don't wanna be mean..., so the only thing I could say is--Master Chen is so handsome. God is fair to everyone. Amen!
swn1989 (无心细语):能说说批评最优化的原因么,你觉得问题在哪?
drburnie (专门爆料):因为他不懂什么叫概率收敛。
TNEGIETNI (lovewisdom):The reason is due to the random correspondence in a random measure with sampling. NO one can take the extreme value (min(X) or max(X)) of a random variable X to make a model selection or a statistical decision based on sampling. There is no a magic mathematical theory that can help us to do it either.
Actuaries (striving):Master chen always uses his self_created terminology A to define his self_created theory. When everyone is wondering what is A, Bang! he uses another self_created terminology B to define A. and C, D, E... Then everyone is trapped in an infinite loop... Finally he claims others are too young and too naive to understand his theory. I worship u Master Chen!
drburnie (专门爆料):你为啥不称之为Master Bation Chen了?
Actuaries (striving):I told master chen's story to my friend. He told me another story about how one of his classmates became MinKe and then it led to a tragedy... So right now i am in very sympathy with all MinKe's. God/Buddas/Muhammad bless them!
TNEGIETNI (lovewisdom):Let me ask you several simple questions:
1) Is a likelihood (denoted by L) or an optimizer constructed with sampling data a random measure or random variable? The answer is Yes or No. Please select your answer here.
2) Is the set of statistics (denoted by S) of the target model that you try to determine with the L a random measure? The answer is Yes or No. Please select your answer here.
3) Is the correspondence between the max(L) and the E(S) the expected or robust or most certain correspondence? The answer is Yes or No. Please select your answer here.
4) Give you two random variables Height (H) and Weight (W) of 100 adult males, can you take the sampling min(H) or max(H) to determine the sampling E(W)? The answer is Yes or No. Please select your answer here.
5) Does the 概率收敛 to the extreme values of a random variable works here to guarantee us an expected correspondence between i.e. the min(H) or max(H) and the E(W)? The answer is Yes or No. Please select your answer here.
Actuaries (striving):Do u really know what is random measure?
TNEGIETNI (lovewisdom):Please answer my questions first: Yes or No for all the questions that I asked. Do you have any mathematical theory to prove that they are NOT random variables?
Actuaries (striving):u don't even ask the question in a right way.
TNEGIETNI (lovewisdom):Ok, please give your right way to ask. I would like to answer. Then let's see how you can self-explain with your magic mathematical knowledge.
However, if you cannot either answer my questions or ask in your "right way", you might not understand what a random measure is, or your magic mathematical knowledge is just a shit.
Actuaries (striving):Funny... How can i know what question u like to ask? as i said before, u like to self create or self modify math terminology... so i guess no one can answer ur questions coz they don't even know what u are talking about.
TNEGIETNI (lovewisdom):I am afraid that I might meet a scholar bustard (the scholar bustard means Xue2 Shu4 Liu2 Mang2 (in Chinese Pinyin,即学术流氓), in case that I made a linguistic misuse), or someone who might not be qualified to discuss with.
Actuaries (striving):Cool. u made another new terminology. cong!
TNEGIETNI (lovewisdom):Don't shame on yourself. You even cannot answer my questions or ask in the "right way" that you believe.
weekendsunny (醉生梦死):jin1 tian1 xian2 de2 dan4 teng2.....(今天闲得蛋疼)
1) Is a likelihood (denoted by L) or an optimizer constructed with sampling data a random measure or random variable?
~~~~~~RANDOM VARIABLE with fixed measure (ok..I create one new term now..)…random variable is a function from sample space Omega to real value space R. Measure must be well defined on the Omega. You understand? There is nothing called random measure.before you move to the stochastic process.
2) Is the set of statistics (denoted by S) of the target model that you try to determine with the L a random measure?
~~~~~~Set of statistics vs. random variable? What are you talking about? Is an apple a delicious orange?? Given the observation, you have a L for each model (sample points in your mind) in your target model family (sample space in your mind)..This family is a ill-defined space, without any measure…
~~~~~~Don’t talk about the measure of S, before you have a kind of “measure” of your model family..Then another logic question is: can you regard the model family as a sample space and then define the measure??
3) Is the correspondence between the max(L) and the E(S) the expected or robust or most certain correspondence?
~~~~~~If you really want to do this..it is already in Bayesian’s field..But it still doesn’t directly give a measure of the “model sample space”. …
4) Give you two random variables Height (H) and Weight (W) of 100 adult males, can you take the sampling min(H) or max(H) to determine the sampling E(W)?
~~~~~~It is possible. So what?? Be careful to say “determine” as soon as you are talking in statistics. Which kind of “determine”.
TNEGIETNI (lovewisdom):Let's have a concrete sample dataset as follow (Suppose all information in it is true for each one)
ID | X | Y | Z | W |
1 | TNEGIETNI | Male | 1.64 | |
2 | PharmD | Female | 1.78 | |
3 | goldmember | Male | 1.64 | |
. | . | . | . | . |
. | . | . | . | . |
. | . | . | . | . |
N | Actuaries | Female | 1.87 |
All the elements in the dataset are including ID, X, Y, Z, W, 1, 2, ..., n, TNEGIETNI, Male, Hubei, 1.64, PharmD, Female, Henan, 1.78,..., Actuaries, Female, Beijing, 1.87.
For the all elements above, please tell me what a random variable is, and what is not? What is the max(W) and the min(W)?
BTW, the dataset is the sample space for me, because it is a sample and it is a space, and the space is constructed with all the sample information, thus the space is a sample space rather than anything else; and anything else other than that cannot be called "sample space".
TNEGIETNI (lovewisdom)答weekendsunny (醉生梦死):
RANDOM VARIABLE with fixed measure (ok..I create one new term now..). Random variable is a function from sample space Omega to real value space R. Measure must be well defined on the Omega. You understand? There is nothing called random measure.before you move to the stochastic process.
~~~~~~~What is R here? Is it the set of real number? You have moved to a stochastic process when you take the sample data to calculate the L.
Set of statistics vs. random variable? What are you talking about? Is an apple a delicious orange?? Given the observation, you have a L for each model (sample points in your mind) in your target model family (sample space in your mind)..This family is a ill-defined space, without any measure…
~~~~~~~The set of statistics of the target model is also variable along with the L.
Don’t talk about the measure of S, before you have a kind of “measure” of your model family. Then another logic question is: Can you regard the model family as a sample space and then define the measure?? If you really want to do this, it is already in Bayesian’s field. But it still doesn’t directly give a measure of the “model sample space”. …
~~~~~~~Do you believe what you are saying?
It is possible..so what?? Be careful to say “determine” as soon as you are talking in statistics. Which kind of “determine”.
~~~~~~~How do you know the possiblility or probability? Do you believe it?
Actuaries (striving):Man, do u really know what is stochastic process? How come calculating ML becomes stochastic process?
TNEGIETNI (lovewisdom):Please answer my questions at the 20th Lou that I asked you, then come to post your comment here; otherwise say nothing further.
Actuaries (striving):Can u answer the following question? *&@%%^^(Dfh73&E*D&*?
TNEGIETNI (lovewisdom):This is none of my business but yours.
baicaibangzi (白菜帮子):陈大师是不是念个统计phd啊,年龄不是问题,for your revolutionarily theory's sake, 增加点creditability是不。master在学术界就是个屁。。。
TNEGIETNI (lovewisdom):我从您的这段评论里能够感受到的是:我所做出的工作对于您这位统计学PhD是一个羞辱。
遗憾的是,我在这个领域做什么或说什么仅出于自己的能力和内心的判断而无关乎他人的感受。如果您非要将我拉到与您平起平坐才愿意表示出自己起码的尊重,那是您的单方面愿望,与我无关。对不起。
我就不明白,人们为什么总是愿意带着偏见看世界,而有些人即使明知是偏见,却顽固不化地坚持偏见。我希望人们看看我究竟做了什么和说过什么,而不是仅仅盯着我的国内医学院/公共卫生学院的MPH学位。
请允许我借此机会讲个自己的小故事。1988年暑假期间我到四川参加伦理学讲习班,结束后与西南交大的三位学生(两位美女和另外一名男生)一同前往九寨沟游玩。第一天晚上到了九寨沟的沟口附近住下后,第二天一大早开始沿沟底向上游玩。沟底已经有一条常人走的道路,还有一条通车的公路。我就对他们三个说,不如让我们沿着水边走吧。他们对这个建议一致赞同。沿着水边走确实非常难走,但看到的风景却是极其美丽无比。这就是我的个性。我不是一个循规蹈矩的人,且爱异想天开,并因此而实现了自己的梦想。
goldmember (蔬菜<<<菜鸟):理解别人的概念体系很困难。这么着吧。陈大师,你举出一个例子来看看你的方法和经典方法怎么个不同。比如就y=x^2+noise好了。怎么个自权重,怎么个三分法,把结果显示一下,比传统方法高明在哪里。不要搞什么哲学区别。哲学上谁也不比谁强。我相信那句“all models are wrong.”咱就看结果。
Actuaries (striving):Long time ago i suggested Master Chen participate some data mining contests to prove his theory as well as to win some money. He replied that he didn't like money at all.
TNEGIETNI (lovewisdom):从goldmember留给我的所有评论中我感觉到他/她是个有着独特个性和心智的人,且这种个性和心智中有一部分我是很欣赏的(因为那是我所缺乏的),而有一部分是我很不欣赏的(诚实地说,我曾遇见过有着这部分个性和心智的人)。
每个人的哲学系统(更狭义地说,认识世界的方式方法)之间存在着很大的差别。比如,我是个极度包容的人,而这里的很多人却恰恰相反。
你从我所提供的照片上就可以直觉地领会到连续型随机变量的自权重在未来统计学中的地位有多么的重要,这是任何一个拥有统计学常识的人都会作出的简单判断。
至于说到三分回归分析法,一个简单的实例就可以让你接受它的基本分析逻辑:学生学习成绩及其影响因素的线性模型分析。全域模型给定的回归关系在全样本空间上是一个“常量”,意味着每个影响因子对于从最低分到最高分的人来说都是一致的。这显然是最粗糙的结果。如果一个人想知道高、中、低三个分数段的人的影响因素是否一致,他/她就要对全样本空间进行分解或分割。这就是三分法的一个现实的需要,它出于认知的需要,而非任何数学的定理或法则。
你可能会问,为什么恰恰是三分法,而不是两分法或四分、五分、六分直至n分法(这里n是sample size)?那就要看你的智慧、需要和能力了。从数学的角度,上述分法都可以实现,但并非都有意义,例如n分法,就完全走向了统计学的对立面。
我说了这么多,如果按照你的观点“哲学上谁也不比谁强。”那么,就请诸位按照自己的哲学去继续思考好了。
tamuer (hoho):你所说的问题在统计上是有这么个领域来解决这个问题的,叫做quantile regression。
minquan2 (三民主义 五权宪法):楼主,你先学会笑,然后再平心静气的研究一下学问。我感觉你现在走火入魔了,你这样对你女儿的健康很不利。
楼主,我感觉你似乎根本不知道Bayesian Statistics。你所认为的Sample Fixed but Parameter Random在Bayesian Statistics里面早提到过。大学时我思考置信区间的时候考虑过这个问题当时就要写论文,冲到书店里查了一下Bayesian Statistics的书,然后就放弃了。不过你敢于质疑传统观念这点很不容易,要知道这里有些人可能一辈子都说不明白Confidence Interval的假设前提,只会鹦鹉学舌说那不是parameter落在那个区间的概率。
两个分布的自加权期望都在其曲线的顶点处,表明一个连续性随机变量的自加权期望是一个无偏估计。陈大师请仔细复习本科和研究生的统计概论。
TNEGIETNI (lovewisdom):我想知道的是,在你说这话前,你对我所做的了解多少?还是不屑一顾就来此胡言乱语一通?你自命三民主义五权宪法,却对他人自由发表言论作出了严重的人身攻击。
我从来没有说过Sample是Fixed。我只说过样本中的所有随机点以及样本统计量都是随机常量,亦即,整个样本是总体的一个随机代表以及对总体参数的一个随机估计而已。
既然样本是一个随机代表,因此,样本中的最大最小测量结果不能被用来做最优化决策,因为在抽样基础上对应于最大最小测量的那个统计模型或决策中的全部统计量构成的集合仅仅是一个随机的点集合而已。我们需要的是一个对应于诸如likelihood或一般“optimizer”的期望的统计量集合所决定的统计模型或决策。只有这个对应才是随机系统中比较稳定的对应关系,因而是可以被“期望”的。
所谓统计量的可信区间,是由于抽样导致的对样本统计量所要推断的总体参数的一个估算模型。它仅仅是依据样本数据而构造的一个随机测量的方法。任何人都可以另外构造一个不同的方法从而带给我们一个不同的估计。不过,既然统计学的前辈提出了一个合理的分析逻辑和算法,大家就不妨接受它并因此而建立一个能带给我们一致性测量结果的工具。
显然,如果能够得到总体的全部个体,我们就不需要可信区间了。遗憾的是,这是不可能的。
在此,我想说的是我对Bayesian Statistics不感兴趣。它与我的哲学系统相冲突。
关于自加权期望,我可能没有说明白而引起了你的误会。我所说的自加权期望,不是自加权自己的期望,而是说的对随机变量X采用其自加权来估计其分布的期望。这是在一个二维空间里估计X的分布期望,因为它的自加权具有可测性和变异性。
所谓的算术均数是在一维空间上对X的分布期望做出的简单估计。它的理论基础是样本中的每个点对分布期望的贡献相同(以1来表示这种贡献是最简单的了)。
我也复习过了当前的统计学,那里面没有我所提出的自加权的概念。
qiqicrq (正蓝少爷):忍不住想说一下。你问人家在说话之前,了解你多少。可是你在讨论学术问题之前,却对统计了解多少呢?你连统计的最基本的理论都没弄明白,就到处说自己划时代了,新的地平线了,不妥。而大家在跟你讨论之前,至少是看你所谓的理论的,大家看完的感官是,你连统计和概率基本的东西都没弄清楚呢。也有人在闲暇对你的问题回复,但是感觉你压根不明白人家说了啥,而后就用自己定义的一些东西去做反击。
不要老把自己置于一个弱势的地位,搞得大家因为你在国内读的master,学的不是统计而不认同你,更不要以为是统计学术界害怕你的理论,才不接受你的观点你的论文。在美国,大家的背景五花八门,是什么背景都不稀奇。大家不认同,只是觉得你连统计基本概念和理论都没了解清楚,就把自己塑造成一个郁郁不得志的划时代的统计学家不太能接受。
大师会怎么回贴,我大概有数。不奉陪了!
TNEGIETNI (lovewisdom):这个评论是一定要回的,因为它涉及到我捍卫自己的知识系统的问题,也因此而涉及到我是否在此拥有话语权的根本问题,因此,我的回答必须是有力的。
既然这位“少爷”级的他把自己装扮成了耶稣似的天上来的裁判者,我就以一个事实来替我辩护:1994年我考同济医科大学公共卫生学院的卫生统计专业硕士研究生,考前去拜访了从美国NIH/NCI的生物统计中心进修回国,并在国内享有很高声誉的卫生统计学教授余松林老师。余教授告诉我说,卫生统计的专业考试内容中,教材部分占考试分数的80%,另有20%属于教材外内容。考试的结果是,80分的教材内部分我的得分是78分,教材外的20分我一分未得。在当年报考该专业的所有考生中,我的这个分数是最高分,而我的总分也是最高分。我想,这个事实应该足以回答这位在公开场合自称爷的人了。
当然,这样说还不够。我在余教授那里学习和做研究共三年,1997年毕业,并顺利拿到了卫生统计学的硕士学位。我的硕士研究课题是世界银行/世界卫生组织资助的中国湖区血吸虫病防治的经济学比较研究,这需要使用统计学的基本方法。该研究每年要向世界银行/世界卫生组织汇报进度和年度研究报告。这些年度报告基本都是我用当时很蹩脚的英文亲自撰写的。我在阶段研究的论文中就用样本数据构造了一个非常有意义的统计测量,结果,课题组的同事评价说“陈立功真的很聪明。”
再后来就是进入了分段回归分析的方法学探索阶段,因为在那个疾病控制的专题研究中我发现,当年度投入成本(即防治策略)保持不变,疾病感染率下降的单位成本将呈急速上升的趋势。这是很不合理的。如果我们能够找到一个或两个临界点来修正防治策略,就可以控制成本,同时也不会显著地改变防治的效果。
我对现行的分段回归的方法论进行了一个简单的回顾,发现存在着重大的理论问题——最优化的错误,并在第一次接触到样条模型那优美无比的曲线时就产生了先天的抵触,认为那根本就不是统计学的思维模式导致的方法论,而是在数学的确定性假设下的数学演示。这才开始了自己的探索,并最终提出了自己的基于加权随机测量和连续性检验上的三分回归分析法。我提出这个方法后美国统计学界某位拥有数学专业背景和统计学PhD学位的教授竟然问我,你的这个加权法是怎么来的?你为什么要用加权法来估计临界点的期望和可信区间?另一位在美国最著名的大学里的著名的华人统计学教授也对我的加权估计未知临界点的期望表现出不屑一顾。我被这两个事实震惊得愕然无语。我由此强烈地质疑他们的统计学知识和能力。
我的其它应用统计学的论文在国内发表过不下16篇。如果我不懂统计学的概念,这是说不过去的。除非统计学的概念系统从2002年后(那一年我来到了美国,并再也不曾在刊物上发表过文章)发生了重大修正,而我对此完全无知。
我想我要说的已经足够了。但愿这位统计学少爷能够坚守自己的诺言,绝不与我奉陪到底,因为我绝不再回答他的任何评论:它们不值得我继续回击。
drburnie (专门爆料):你女儿还把你当爹?还是已经离家出走了?
TNEGIETNI (lovewisdom):我想知道,如果你也有了孩子,你是如何教他们做人的。我可以从你的言论中望见你心中的黑暗。
drburnie (专门爆料):唉,你终有一天将被你自己的女儿唾弃。
TNEGIETNI (lovewisdom):但愿某种光明能够照亮你和我的心灵,使得我们能够永远保持健康的心理。
wuhuya (wuhuya):能不能冒昧地问一句,这里回帖的人有几个是学医学的?随便问问而已,别介意。陈先生,恕我冒昧的说一句话:没有水,没有月亮。
TNEGIETNI (lovewisdom):你这个评论太风花雪月,文学诗情了。不懂。
wuhuya (wuhuya):您应该去读一读奥修的这本书,这不是风花雪月,这是书名。
TNEGIETNI (lovewisdom):我在29岁后对文学作品慢慢失去了兴趣,因为我的统计学职业要求我以严肃的事实说话,不得容忍任何的夸张、虚构、捏造等信息。
可读的书千千万万。我现在读书极其挑剔,不是非读不可的书决不浪费时间。既然你如此推崇这本书,且已经知道了它的大概意思,可否请你在此多敲几下键盘把内容简介一下?多谢了。
wuhuya (wuhuya):去读一读吧,真心地为你好。
TNEGIETNI (lovewisdom):谢谢。其实我很好。我绝对不会care我的方法论是否被认可。我只表达出自己的思想。人们是否认可和接受,那是他们自己的事,与我无关。
我早已说过自己不懂数学,更不懂概率论。但我在统计学里所做的工作其实与概率论并无直接的关系。我的算法并不完全需要概率论的支持,例如三分迭代法,它仅仅是如何使用样本数据进行迭代搜索的一种数据安排法。再如,我说我们可以在原始样本的可测空间里构造一个关于临界点及其对临界关系的可能改变做出贡献的权重的可测空间,从而可以用加权平均来估计未知临界点的期望。这一切都是数据分析的逻辑,它们根本不需要概率论。
我的方法论中需要概率论支持的是临界模型的差异性检验,这由一个简单的服从Chi-square分布的检验统计量就可以实现;另一个就是连续性检验,我提出了几个选择以应对不同情形下的检验。
我真搞不懂,我竭力引入概率论到分段回归分析中,而那些不要概率论支持其连续性判断而是以武断的强制连续性假设为基础的Spline法却在统计学里大行其道。这究竟是谁的错?
goldmember (蔬菜<<<菜鸟):问题在于价值。我不懂计算机。我竭力想引入宇宙无敌万亿并行大编程法到这个领域,可是他们都无知地不理我。
TNEGIETNI (lovewisdom):三分回归分析法的应用价值是显而易见的。主要的意义在于使得我们可以在不同的临界空间里寻找可变的、有意义的自变量集(或因变量的影响因子),从而为预测和控制提供更加可靠的依据。
从那个学生成绩的影响因素模型的分段回归分析来看,在高、中、低三个分数段的影响因素很有可能是不一致的。反之,如果不作分段分析,则根本不可能知道影响因素在不同临界空间的可变性。
在多维空间里讨论临界模型间的连续性将是一个极其复杂的问题。从统计学的随机变异性思维来看,任何强制连续性假设都是没有根据的。这种假设说得轻一点是不恰当的;说得重一点简直就是在胡说八道。
我的方法可以按照现有的分析逻辑被改造为以最优化模型选择和强制连续性假设为基础的方法。是的,我不懂概率论,不懂概率收敛,更不懂根据连续性假设如何解高阶函数求连续性的临界点、拓扑变换、penalty的设定或任何数学家们可以使用的术语所代表的他们能理解和使用的理论和方法,因此,任何懂得上述数学理论的人想要这么做我都不会反对,且改造后的方法不要与我搭任何边。对于我自己来说,我宁可继续在数学特别是概率论上无知也绝对不会为了一个发表机会而改变它。
Actuaries (striving):(你搞不懂)是接生婆的错。她当初手一滑,你后脑勺着地,于是就变成现在这样子了。
TNEGIETNI (lovewisdom)答Actuaries (striving):我以前回你的评论,抱着认真的态度和你讨论,是因为我尊重你说话的权利。自从在本主题的前面奉劝你say nothing further if you refuse to answer my questions后,你应该有点自知之明了。我相信你这位清华毕业的高才生有这个自我判断能力。如果依然没有,就当我再奉劝你一次,且事不过三。
Actuaries (striving):你问的压根就不是一个统计或者科学问题,还要大家回答,太强人所难了吧。我认真回你一句,任何一本nonparametric/semiparametric model的统计教科书都说了为啥要假设连续,不过你得先学学啥叫degree of freedom啥叫overfitting. 对于你基础这么差的,还喜欢自以为是地乱用一堆random measure,measurable space,functional等名词,我看比较难。
TNEGIETNI (lovewisdom):Please don't talk to me with an assumed certainty in an uncertainty domain. You are crazy.
Actuaries (striving):你以为历史上没人做过discontinuous splines啊。就送你两字:看书。
TNEGIETNI (lovewisdom):Do you really understand "Please don't talk to me with an assumed certainty in an uncertainty domain"? Do you really know what you are saying? Do you really think that a "discontinuous splines" is discontinuous?
DaShagen (Unbearable lightness):讓我翻譯一下,請不要與我在我不知道的領域用假設我知道的語氣與我談話。
TNEGIETNI (lovewisdom):Please don't talk to me with an assumed certainty in an uncertainty domain. 这句英文的中文翻译是“请不要在非确定性范畴里跟我讨论一个假定的确定性。”
Actuaries (striving):别杞人忧天了,你所谓的spline需不需要continuous的问题几十年前就有人讨论过了。不看书还整天像中了彩票一样。
TNEGIETNI (lovewisdom):I know why they must assume the continuity because they cannot estimate the unknown threshold if they don't take the assumption in mathematics!!! As long as they have this assumed certainty, they can estimate the threshold with a mathematical skill (通过解方程组而得解).
这个非常数学化的分析逻辑看起来非常的正确,但是问题就在那个中文翻译里。这样做等同于用了一个根本不存在的确定性取代了一个确定地存在着的非确定性!这是完全违反统计学基本逻辑的确定性数学思维。
Actuaries (striving):别瞎扯淡了,你先得理解model's degree of freedom/complexity与generalized performance的关系。你还是好好看书再来扯吧,当然你的水平也看不明白。
TNEGIETNI (lovewisdom):如果这样的书籍存在,这样的理论被人阐述,我认为那一定是在胡说八道。他们或许可以使用一大堆数学假设、符号、定理、推理、推论、公式来进行逻辑阐述,但所有这些阐述的基本前提根本不存在。
drburnie (专门爆料):陈大师倒现在都不知道,他所谓的什么三分法,其实就是在fit噪音。
陈大师如果能花时间找个实际的data,比如Boston Housing和MARS或者GAM,比比cross validation error,他自己就应该能明白了。可惜啊,他连什么是cross validation都不知道,更别提generalized error了。
TNEGIETNI (lovewisdom):如果你用了一个服从正态分布的全样本数据计算出了一个算术均数,你就会知道应该没有比这个期望更好的了;如果你用我的算法分析了一个样本,你就会知道所谓的cross validation是否还有必要?
在现行的分析逻辑和算法下,cross validation是迫不得已的手段,因为你们估计出来的是一个极不可靠、极不稳定的随机点模型。
Actuaries (striving):哦,我明白了,陈大师的三分法只能用在全样本啊,那当然不要CV了。要是全样本的话为啥不用N分法,100% fit data啊。
TNEGIETNI (lovewisdom):第38楼恰当地回答了你的这个评论。(引第38楼中的部分内容“你可能会问,为什么恰恰是三分法,而不是两分法或四分、五分、六分直至n分法(这里n是sample size)?那就要看你的智慧、需要和能力了。从数学的角度,上述分法都可以实现,但并非都有意义,例如n分法,就完全走向了统计学的对立面。”)
Actuaries (striving):只要知道你的model是用在全样本就足够了。哈哈,怪不得不用CV呢,也怪不得你找不到真实的数据来验证你的model。
drburnie (专门爆料):既然你说已有的方法不好,那你来Show一下你的方法在Boston Housing Data的性能啊?这个是最简单的data了,你来做做看啊,哈哈。
TNEGIETNI (lovewisdom):经过前面的论战,想必各位已经感到自己失去了招架之力。这个要求是你们最后的防守阵地。
我已经在一个医学样本上应用过自己的算法了。其结果无论是对于算法的创建人还是对于医生来说都是振奋人心的。所以,你们这个最后的阵地还是由你们自己来摧毁比较有意义。请大家用我的方法处理你们手中拥有的任何一个合适的样本。这要不了你们多长时间,因为它已经耗费了我13年的生命,但对于你们来说,可能仅仅需要3天就足够了:第一天读文章、第二天编程序处理数据,第三天分析结果并反思方法论。
drburnie (专门爆料):把你的实验步骤说一下吧。你是怎么得到“振奋人心”的结果的。
Actuaries (striving):陈大师既不懂啥是cross validation,甚至也不懂啥是validation,我猜他就只有一个training sample,拼命overfit,然后宣称自己的model更好。
TNEGIETNI (lovewisdom):我的三分法中的两个临界点是用全样本数据及其对临界关系的可变贡献(权重)来估计的一个加权平均数。这就是说,每个临界点的估计值都是一个100%地充分的且由权重校正后的无偏统计量,正如我们计算任何样本的加权均数或算术均数一样。有哪位对样本均数做cross validation的?说出来让我们开开眼界?
任何来自实际样本的一个training sample都不可能给我们一个比由全部实际样本计算出来的统计量更充分的统计量。在这种情形下,CV就没有了任何意义。难道我们能用以一系列不充分的统计量作为标准去验证一个充分统计量?难道我们能够用一组残疾人作为标准去验证一个无残疾的人?
Actuaries (striving):真是夏虫不可语冰... 果然和我说的一样嘛,就是拼命overfit一个training sample,不做任何validation和cross validation。
陈大师你不妨加入狂多的high order terms and interaction terms, 相信我,这方法一定会比你的所谓三分回归fit的更好。你试试就知道了,哈哈。你大可以再宣称发现了新的统计学地平线,千万别告诉别人这方法是我告诉你的。
TNEGIETNI (lovewisdom):很显然,你没有看懂我的方法。我的方法中用来构造随机临界变量的模型拟合方法都是现行的已经考虑了如何克服overfitting的算法以及其它一切成熟的算法。我仅仅只是把它们组合在一起完成一次“statistical survey”以便对每个随机样本点成为临界点的“重要性”——即权重进行测量,然后再用此权重在临界点的可测空间里计算临界点的加权期望。在得到临界点的加权期望估计后,再由该期望估计决定样本的临界空间,然后在各临界空间里建回归模型。这是因为期望的临界模型只能对应于期望的临界点而不可能对应于任何其它。
事情就是这么简单。这就是我为什么拒绝使用最优化和强制连续性假设的根本原因。
Actuaries (striving):连validation都不做的居然奢谈克服overfitting... 老陈,你还是赶紧向接生婆索赔吧,学桑兰。
TNEGIETNI (lovewisdom):你说这话表明你根本没读懂我的文章,或根本没读过。我的方法其实非常的简单,简单到如同你用一把尺给一个一定样本量的人群中的每个人量身高,然后计算其身高的平均值。再用这个平均值去分割样本空间,然后在各临界空间里建临界模型、检验各临界模型间的差异是否有显著性、测量两个相邻模型间的连接变异的大小、最后检验其连续性(或离断性)。
在这里,一个成熟的回归分析的算法在其中所起的作用恰如简单的四则运算在回归分析中所起的作用,从而,回归分析在搜索临界点时仅仅是一个测量权重的工具而已。显然,测量人群的身高时是没有必要做所谓的cross validation的,同样,测量权重时也是不需要做CV的。事情就这么简单。
Actuaries (striving):我还是不是很懂。不过我猜我至少懂得你的measurable是啥意思了,就是用尺去量啊。再说,你压根不懂CV的目的何在。我真是闲的蛋疼...
TNEGIETNI (lovewisdom):很好。我不知道为何以及如何做你所说的CV。如果你知道,为什么不将它引入到三分回归分析中以补缺呢?我倒是要等着瞧瞧,看你往哪里插入它。
将样本空间分割为高、中、低三个临界空间再建临界模型以探索整个空间上的关系的变异性,这样的三分回归有什么错?错在哪?更何况整个三分回归分析也包含了一个非临界的全域模型在内。临界的与非临界的模型因而可以相互比较和关联。这就是哲学里的辩证法(整体与局部间的关系及其变化)。
一个人如果不懂辩证法的基本逻辑,确实是很难弄懂我的文章的基本逻辑的。Sorry, 如果你恰好是这样的一个人,就不要怪我了。
Actuaries (striving):CV关model fitting啥事?CV是用来评价一个model是不是overfit的,是用来估计generalized error的,是用来指导model selection的,说了你也不懂吧。
TNEGIETNI (lovewisdom):如果果真如此,那么,就让我告诉你,我的方法论中没有CV的地位。这是因为期望的临界模型集合 唯一地对应于 期望的临界点集合。
如果每个临界点是由全部样本中的每一个点及其对临界关系的可变性的相对贡献来估计的,那么,就不存在另外一个比它更好的估计!!因为一个分布中有且只有唯一的期望存在!
CV的出现恰恰是由于当前的方法论没有使用期望对应,而是采用了最优化这一只能带给我们一个非期望的随机点模型估计的缘故。如果临界点和临界模型都已经是期望的估计,还要CV干吗?
drburnie (专门爆料):大师,先给你一组observation,我们暂且称之为A,你用A来训来模型。然后再给你一组observation,我们暂且称之为B,B不同于A,但B和A来自同一个分布,我们想知道你在A上训练的模型在B上的预测性能如何。这个就叫做Validation。
我们现在想让你重复上面的步骤。你在validation中得到的mean square error或者是median square error可以用来衡量你model的实际性能,你的明白?
TNEGIETNI (lovewisdom):实话实说,我不是不懂CV的基本逻辑。这也就是为什么我敢于坚持CV对于我的方法论没有意义的缘故。
现在让我回答你的问题。如果A和B来自同一总体(或服从同一分布),如果临界点和临界模型在A中都是真正的期望估计,那么,在B中将得到验证!这是不用怀疑的,恰如用B去validate由A做出的平均估计一样。
drburnie (专门爆料):其实你完全不懂validation的意义。呵呵。都是估计也是有很大不同的,你应该没听说过有一种东西叫做bias-variance trade off。estimator的性能取决于估计的bias和估计的variance。
你以为估计是unbiased和low biased就是好的?用成百山千阶的多项式几乎可以完美fit训练数据,bias极小,但variance极大,这种model的脑残程度跟大师和大师的model真的有一拼啊。
呵呵。顺便多告诉你点知识,对于一个3维以上高斯分布,如果在意L2 risk下的性能的话,最好的mean的estimator并不是unbiased的sample mean。不过这个结论对于你可能太高端了,感兴趣的话就自己去看看吧。
http://en.wikipedia.org/wiki/James%E2%80%93Stein_estimator
TNEGIETNI (lovewisdom):我不怀疑人们在探索数据分析的过程中会有新的发现。人们可以发现很多很多现象。比如我在定义了点对点的差异性和相似性后,我可以在此基础上为样本中的每一个随机点定义成百上千个不同的自权重,但只有一个自权重是无偏的,即随机变量X在该自权重基础上的自加权期望与其自权重曲线的顶点之间的吻合程度在任意分布形态下最高。这表明除此之外的其它成百上千个自权重没有意义,因为它们都拥有较大的偏差。
这是什么原因呢?你要是想弄清楚这个问题,你需要学习使用辩证法,它会给你一个严谨的解释。如果你不懂辩证法,你就会以为只要是自己发现的客观存在着的东西,就一定是真理。遗憾的是,这是一个谬论。
举个最简单的例子。一辆车子在路上行驶,司机开车的速度是80miles/h。在围绕该车360度范围内以目视观察它的速度,每一个角度上得到的速度都是不一样的,但对于观察者来说都是真实的,而车子的速度却不会因为观察角度的不同而改变,它的速度就是80miles/h。
我想说的是,我从来不说人云亦云的话,不做人行亦行的事,除非我经过了认真的思考后发现它没有任何我所能理解的问题。对于我来说,任何统计方法都是值得怀疑的,即使是算数平均数的计算方法。这就是我为什么可以提出连续型随机变量的自权重的定义的前提,因为我认为可能有一种方法可以帮助我们测量每个随机点对分布的期望的贡献存在变异性。而算术均数的哲学基础是,每个随机点的这种贡献都相同。
关于我所提出的三分回归分析法,这个方法将同时带给我们较小的bias和较小的variance。
最后,你不能说我完全不懂validation的意义。这话太武断了。Validation的分析逻辑很简单,数学计算上也没有什么不可理解的东西。我想,以我的理解能力,没有什么统计方法的逻辑是不可理解的,即使是一个错误的分析逻辑,我也能够理解。
Actuaries (striving):逻辑太牛了,我不懂XX,所以XX对我来说没用。你做做validation就知道了,尤其当sample size of A < sample size of B的时候,你会发现你的model会死得很惨的。
TNEGIETNI (lovewisdom):非常感谢各位从不同的角度以不同的方式为我提供的指导和帮助。我会潜心思考这些问题。
让我在此提出一个简单的疑惑:对于某个被定义的总体,可以对其任一随机training样本做CV的validation样本(相同抽样条件下的、不同抽样条件下的)具有无穷性,大家怎么从逻辑上解释究竟要做多少次validations才能被认为是有效的?
Actuaries (striving):自己可以看CV到底是啥东西
http://en.wikipedia.org/wiki/Cross-validation_%28statistics%29
DaShagen (Unbearable lightness):老陈是彻底疯了。记得老陈以前没那么疯。我猜都是你们这些人逼的,非得跟大师较真。大师不能下台,就知道能往上,升做神了。
TNEGIETNI (lovewisdom):毫无疑问,这个世界上常常有人会疯,但我不会。如果有人能够论证说我的东西全部错了,我会放弃,而不会继续坚持,因为我确知自己的知识非常有限,且极其贫乏。
遗憾的是,迄今尚无人能够论证我所做出的全部东西是错的。我不会care人们如何看待我的东西,我只在乎我能否以及是否说了出来。人们接不接受,认不认可真的与我无关。
ningyan (ningyan):我很奇怪有人看大师的帖子内容吗?怎么这么多人回复。
drburnie (专门爆料):你不得不承认,陈大师的东西写得太晦涩,太多他自己创造的词汇和乱用的词汇,但是我们最后还是坚持看下来,终于看懂了!!有木有!!有木有!!
DaShagen (Unbearable lightness):因为大周末大家都很闲。
TNEGIETNI (lovewisdom)答ningyan (ningyan):既然你已经产生了如此的想法,你要么不要发言,要么去看我写的东西并试图弄懂它们
goldmember (蔬菜<<<菜鸟)答TNEGIETNI (lovewisdom):麻烦把文章链接贴出来好不好?至少审稿发表的文章比陈大师云山雾罩的描述好懂一些。
drburnie (专门爆料):哈哈,他没有在peer-review的任何杂志和期刊上发表过论文。
Actuaries (striving):没有peer reviewed 的JSM proceeding倒是有,不过光abstract就已经吓死我了
http://www.amstat.org/meetings/jsm/2011/onlineprogram/AbstractD
http://www.amstat.org/meetings/jsm/2011/onlineprogram/AbstractD
看看老陈造了几个新词 Continuous Variattribute, convex-concave self-weight curve, Linkage coefficient, Random correspondence...再包括他乱用的术语,我觉得这世界上应该不存在能读懂他文章的人。
littlebirds (dreamer):Chen L igong and Chen Yongmei? Is that his daughter?
TNEGIETNI (lovewisdom):由于我的知识系统非常有限,我不能保证我所说的将是100%的正确,但如此多的新概念的产生可能预示着某种有意义的突破的开始。
毫无疑问,我对连续型随机变量的自权重的成功定义将是统计学里最大的科学发现之一。
jackinsky (abcde):You know what? Many people are struggling with courses, degrees, jobs, money, house, career, and disease, and happiness is so hard to gain. You are doing great. You are pursuing your dream and you are happy. Many people at your age or even younger don't have dream at all, but you have a dream, no matter what it is. Keep going, and don't quit.
TNEGIETNI (lovewisdom):这个世界上只有一种生物才有能力拥有梦想,那就是人类。如果人类本身没有了梦想,它的命运将不堪设想;如果一个人没有了梦想,他/她的人生就失去了任何的希望。因此,只要有梦想,就会有希望;而只要有希望,就有可能创造奇迹。
——与所有人共勉。
dingxu (保密)答jackinsky (abcde):兄弟,害人不是这么害的。
TNEGIETNI (lovewisdom):我的梦想已经实现,我的使命也已基本完成了。我可以自豪地走了,因为我已数次超越了自己的极限。
Actuaries (striving):这听起来怎么像遗言?大师你别开玩笑,我们可不敢做烧死布鲁诺的那群人。
jackinsky (abcde)答dingxu (保密):I am telling the true feeling and I am talking about HAPPINESS. How many people really have happiness? A student needs to work hard and can not sleep well under the pressure of graduation; after graduation he is struggling with finding a job, and after getting a job he will struggle with work and relationship; then after marriage he has to deal with family problem, child problem, house problem, etc. Finally all these are solved, you have to deal with your own disease, or health problem.
drburnie (专门爆料):其实换个说话就是,脑残也有脑残的幸福,哈哈。而陈大师是脑残中的脑残。
TNEGIETNI (lovewisdom)答drburnie (专门爆料):呵呵,瞧你那付德行总算表露出来了。该不是脑袋里头在抓狂吧?面对一个国内医学院毕业的统计学master所作出的成绩,你作为一个自命尊贵的统计学PhD也只能以如此低劣的品行说话了。还能对你期望什么呢?期望你接受一个master创立的方法?对一个master表示尊敬?我料定你宁可喝自己撒出的尿也不会这样做。
drburnie (专门爆料):学位这东西从来都不说明啥大问题,关键是你的态度和见识实在是太脑残了。
TNEGIETNI (lovewisdom):你只会用尖酸的心理为自己找平衡。如果你恰恰是接受了并采用过最优化和/或强制连续和/或bootstrap等的人,就会拼命贬低和攻击他人对此的批判,以掩饰自己的错误。
顺便说件事。我遇到的一个数学背景出生的高级统计专家(美国白人)则对我对分段回归分析中的最优化和强制连续性的批判持完全赞成的态度。他原是某大学统计系的教授,了解现行的分段回归及其分析逻辑和算法,在和我的讨论中才猛然醒悟。
最后,如果你不NC,请回答我在第20楼提出的那几个问题,其中之一就是针对你所说的“他不懂概率收敛”。我承认我确实不懂概率收敛,那么,我的问题你该可以回答吧?请不要在一个master面前表现得像一条可怜虫。为了给你提供一个参考,我将自己对那五个问题的回答写在这里:
1)Yes; 2)Yes; 3)No; 4) No; 5) No.
drburnie (专门爆料):唉,你连概率收敛都不懂还在这里de2 se4(得瑟)个屁啊。
TNEGIETNI (lovewisdom):Ok,你懂那个收敛,那好,就请回答我提出的第5个问题:5) Does the 概率收敛 to the extreme values of a random variable works here to guarantee us an expected correspondence between i.e. the min(H) or max(H) and the E(W)? The answer is Yes or No, please select your answer here.
请注意,我的那5个问题有一个共同的前提,即抽样条件下。
我已经给出了自己的回答。如果你回答不了,就不要用这种方式说话。说了等于放屁。
drburnie (专门爆料):你自己问的问题狗屁不通,你先解释一下什么叫expected correspondence。
Actuaries (striving):我琢磨他理解的measure就是用尺来量,random measure就是用尺去量一个random variable。
TNEGIETNI (lovewisdom):看来,在那些抽象的概念上纠缠永远不能有结果。让我说得具体一点。
给定一个两分法的样本(假定X是自变量而Y是因变量,两段都是简单线性模型,且临界点是在X上),让我们看看现行算法及其分段模型组的基本表述:
haty_1 = a1+b1X if X<=t
haty_2 = a2+b2X if X>t
ID | X | Y | M | CR |
1 | x1 | y1 | m1 | cr1 |
2 | x2 | y2 | m2 | cr2 |
3 | x3 | y3 | m3 | cr3 |
4 | x4 | y4 | m4 | cr4 |
5 | x5 | y5 | m5 | cr5 |
6 | x6 | y6 | m6 | cr6 |
7 | x7 | y7 | m7* | cr7=min(.) |
8 | x8 | y8 | m8 | cr8 |
9 | x9 | y9 | m9 | cr9 |
0 | x0 | y0 | m0 | cr0 |
其中,M是由分段模型组的系数构成的矩阵,CR是分段模型的合并残差。*表示根据最小CR选定的分段模型,如果我们有 min(CR)=cr7。
在得到m7后,按照强制连续性假设,对分段模型组7解联立方程组得到关于X上的一个解Gamma
Gamma = (a1-a2)/(b2-b1) (1)
作为临界点t的样本估计。到此为止就是经典的分段回归分析(classical piecewise regression or segmented regression)。后来,为了满足模型间连接的平滑性,人们对连接点处进行了平滑处理,得到了一个现代化的样条模型。这就是现行的分段回归。这个方法从数学的角度非常的正确,无懈可击。
然而,这样得到的临界点仅仅是一个随机的点测量,没有可信区间,在统计学上根本站不住脚。尽管后来有人为此付出了努力,但基本上都失败了。直到bootstrap方法出来后,人们才开始用bootstrap来构建临界点的可信区间。
现在,我对这样的分析逻辑提出了批判。认为它在统计学理论上是一个错误。我的观点是,首先,临界点在抽样条件下是一个随机变量,两段模型间是否连续是不确定的。它们在抽样条件下一定存在一个连接变异。这个变异有多大多小谁也不知道,因而需要一个概率进行推断而不是强制性地主观假设它们之间是exactly连续的。从而,用解联立方程组估计临界点的方法根本行不通。其次,由于X是随机变量,分段模型组的系数矩阵M以及合并残差CR在搜索过程中也将是一个随机变量,而且X、M和CR之间相互关联。它们的随机点测量之间的对应是一个随机对应,从而不能由min(CR)来决定E(M)。最后,在公式(1)中,Gamma具有不可测的变异性,因为分母(b2-b1)可以趋于甚至等于0。因此,我对上述方法进行了如下改造:
haty_1 = a1+b1X if X<=t_bar (t: Threshold)
haty_2 = a2+b2X if X>=t_bar
ID | X=T | Y | R | M | CR | CRR=W |
1 | x1=t1 | y1 | r | m1 | cr1 | w1=|r-cr1|/r |
2 | x1=t2 | y2 | r | m2 | cr2 | w2=|r-cr2|/r |
3 | x1=t3 | y3 | r | m3 | cr3 | w3=|r-cr3|/r |
4 | x1=t4 | y4 | r | m4 | cr4 | w4=|r-cr4|/r |
5 | x1=t5 | y5 | r | m5 | cr5 | w5=|r-cr5|/r |
6 | x1=t6 | y6 | r | m6 | cr6 | w6=|r-cr6|/r |
7 | x1=t7 | y7 | r | m7 | cr7 | w7=|r-cr7|/r |
8 | x1=t8 | y8 | r | m8 | cr8 | w8=|r-cr8|/r |
9 | x1=t9 | y9 | r | m9 | cr9 | w9=|r-cr9|/r |
0 | x0=t0 | y0 | r | m0 | cr0 | w0=|r-cr0|/r |
这里,R是全域模型的预测残差,根据模型的假定它是一个随机常量(因为样本因而模型都是随机的,但对于给定的样本和模型来说,R是不变的)。由于临界点被假定在X上,因而它与X拥有同一个可测空间。在两分法中,对X的每个实测样本点就是随机临界点的实测样本点。这个搜索过程就是在假定每个实测X点作为临界点时对临界关系的改变的意义或贡献是怎样的,这由CRR来度量。由于我们不知道临界点在哪里,只能这样假设并搜索,从而得知每个点都有贡献,因此,由一个简单的加权平均估计就可以得到临界点的期望估计。由此,临界模型就被建立在这个期望临界点之上,由此,两段模型间的连接变异就可以在该期望临界点处得到测量,从而有了连续性检验的基础。由于有了权重,我们可以计算临界点的加权抽样误差,从而可以计算其可信区间。而分段模型在临界点处的CRR就是比较分段模型与全域模型之间的优劣的一个度量。
由于全域模型已经给定了全空间的基本关系型或模型结构,因此,在搜索临界点的过程中,每次迭代的分段模型都应该与全域模型保持同一模型结构,从而CR就是一个单纯依从系数的随机改变而改变的随机变量,因而它们之间的误差仅有抽样误差而没有系统误差。
然而,两分法是一个特例,即其中的临界点数被arbitarily假定为只有一个。在我看来,即使是临界点数也是不确定的。如果存在一个,是否存在另一个与它一致或不一致呢?从而三分法的思想就诞生了。为了找到另一个,我构建了两类三分迭代法(对称的和非对称的)以便为每个临界点构造一个可测空间,并由此得到对它以及它的权重的随机测量,进而将每个临界点的估计建立在加权平均上。由于每个临界点都有加权的抽样误差估计,因而采用一个加权的t-检验就可以推断两个临界点是否一致。从而一个样本空间里的临界点的个数也在概率论上找到了支持。
请问,我的分析逻辑和算法错在哪?显然,任何一个受过统计学常识训练的人都会赞成这个分析逻辑和算法。现在,请你根据第20楼的问题以及这里的阐述来回答:
X, M, R, CR以及CRR等是否是随机变量?min(CR)与m7之间的对应是否是一个期望对应?我们可否用最优化来决定临界模型的期望?你所谓的“概率收敛”在CR上会收敛到min(CR)处吗?
ningyan (ningyan) 答TNEGIETNI (lovewisdom):其实我是想说,干点什么都比看你的东西有意义。看你的帖子纯粹是浪费时间。
TNEGIETNI (lovewisdom):你想干啥是你个人的事情。每个人都有自己ignorant的世界,例如我自己就对数学特别是概率论近乎于ignorant。你既然是学统计出生的,你愿意对这个领域的新东西保持你的ignorance,那也是你自己的事情,与任何他人无关。
drburnie (专门爆料):又把你这些阿猫阿狗拿出来忽悠了。不容易,你终于把你的model写出来了,原来就是这么个破玩艺。你这个所谓的不连续早就有人做过了。
Spline estimation of discontinuous regression functions. JY Koo - Journal of Computational and Graphical Statistics, 1997
Discontinuous regression surfaces fitting. [PDF] from psu.eduP Qiu - The Annals of Statistics, 1998 – JSTOR
[PDF] Automatic smoothing for discontinuous regression functions. [PDF] from psu.eduTCM Lee - Statistica Sinica, 2002 – Citeseer
Kernel estimation of discontinuous regression functions. KH Kang, JY Koo… - Statistics & probability letters, 2000 – Elsevier
Estimation of the number of jumps of the jump regression functions. [PDF] from psu.eduP Qiu - Communications in Statistics-Theory and Methods, 1994 - informaworld.com
这里面的方法比你这些狗狗屁屁的玩意漂亮多了。
TNEGIETNI (lovewisdom):你自命自己懂概率论。我问你,你从他们的文章里怎么找到每个临界点的可测空间?如果没有可测空间,你怎么“测量”它们?怎么为它们构建可信区间?你以为那些临界点都是由数学理论确定的?可笑之极。
我的三分法并非只用在二维空间上,而是对于任意维可行。我不过是以最简单的模型来阐述我的分析逻辑和算法。
drburnie (专门爆料):唉,我都已经这么好心帮你google了,你自己看不懂就不要怪我了。我来主要是逗逗你这个板宠,不然版面冷清了不好看。
goldmember (蔬菜<<<菜鸟):快帮我写咆哮体!!!!咆哮大师方法的细节!!!!!好不好!!!!!!
TNEGIETNI (lovewisdom):我非常感谢你的帮助。不过,我还是坚持我的分析逻辑和算法。它们实在是非常简单。
当然,我不会care人们是否认可。我的分析逻辑和算法都在“统计学的新地平线——陈立功与他的自权重曲线”中的第122楼。
我的三分法的文章link如下:
http://www.meetingproceedings.us/2009/jsm/contents/papers/30324
顺便附上John Tukey的部分信息供大家参考:
Dangers of optimization! ------- Tukey.
ftp://128.32.135.2/pub/users/binyu/tea/215A/tukey.62.pdf
< The future of data analysis > The Annals of Statistics, 1962
http://en.wikipedia.org/wiki/John_Tukey
我就此话题要说的已全部说完。
Good Luck to everyone.
Bye by.
大名鼎鼎的余松林教授
http://www.mitbbs.com/article_t/Statistics/31278239.html
wuhuya (wuhuya):
http://www.hstathome.com/jianjie/%E4%BD%99%E6%9D%BE%E6%9E%97%E7
TNEGIETNI (lovewisdom):撇清一下关系。我所做的方法学研究与我的导师几乎没有关系。他第一次听说我的分段回归分析后,建议我去看样条理论和方法。可是看了后非常的不感冒。
在事情没有搞清楚前,请不要将我的导师扯进来。
wuhuya (wuhuya):不是想扯进来,只是觉得你在美国这样,在这个版上这样,没想过你的导师吗?做一个公卫人本来就不容易,你能约束一下自己的行为吗?这样做真的得不到任何人的尊重!
TNEGIETNI (lovewisdom):你这话说的很不尊重。我没有不尊重谁,我甚至没有对任何谩骂回以肮脏的文字。我只是在阐述我的思想。
请你自己删除这个贴。否则我将要求斑竹删除。
wuhuya (wuhuya):版主删不删除其实不重要,真的。我只是想奉劝你一句,你永远是一个公卫人,不是数学家,这是你的背景决定的。这里的人大多数是很好的,大家都很尊重数学,但是你的言行确实让大家很不舒服。
我一开始其实真的很体谅你,并奉劝你放下。但是你真的不理解别人的好意。我潜水很久,实在看不下去了,所以上来说你两句,真的希望你好自为之。
我也没有谩骂任何人,发帖子是我的权利,余教授不只是你一个人的老师,我们大家都应该尊重他,所以我不觉得这个帖子有什么不妥之处,也不会删除。不过如果你一定要我这么做,没有问题,我可以答应你,但是请你永远记住你不仅代表你自己,你代表公卫人!
TNEGIETNI (lovewisdom):既然如此,你可以保留此贴。我不再要求你删除。其实,余教授对我提出的方法论是很欣赏的,因为三分回归分析法在医学领域非常有价值。这是任何一个在这一领域从事统计学应用研究的人都非常清醒的认识。它被以数学背景为主体的统计学理论界压制是因为它动摇了一些方法论的基础。
既然你把数学在统计学里看得那么神圣,就让我告诉你一个秘密:统计学不是数学的分支,而是哲学的认识论的分支,即它是一门应用数学技能解决认识世界的方法论的问题的学科,Fisher早就说过,统计学是认识世界的一般科学方法论。简单地说是
mathematized epistemology
而不是
epistemologized mathematics.
因此,作为一个搞统计方法学研究的数学家不懂哲学,尤其是认识论,一定会犯错误!
wuhuya (wuhuya):你让我怎么说你呢?谁和你讨论什么分支的问题了?我还真的不懂,真的,你有可能还真的是对的,没错。
其实陈先生,我不想叫你大师,不和你开玩笑,你真的去看看我给你推荐的那本书吧,那是一本哲学书,希望你能喜欢。
TNEGIETNI (lovewisdom)答wuhuya (wuhuya):美国有一位大统计学家,名叫 Peter John Huber。他在1997年11月应邀对中国科学院数理统计研究所发表过一个演讲,其中大量引用了Tukey在60年代发表的观点。最后悲哀地希望能够有一股来自数学以外的力量改变统计学的现状。而这股力量在我看来只能是来自哲学。
我的良好的哲学素养帮助我完成了这个研究。我因此而自豪。我并非不重视数学,我为此而花了一大笔钱买了一套《数学大百科辞典》(中文版)。尽管我高度重视数学,但我不能说我完全弄懂了全部相关的数学问题。
我主要是从统计学本身的研究对象及其基本行为模式开始有关的哲学思考的。于是发现了一些问题,并试图提出自己的观点。整个事情就是这样简单。我有自己的认识,并公开地表达出来,这有什么错?
他们公开指责我这不懂,那不懂,可是,你看到有谁真正对我的理论和方法提出过有力的批驳?None of them!!!!他们只会谩骂、嘲笑、奚落、……。却无人回答我提出的最简单的问题,还扬言我的问题根本不该那么问。而当我要求他们以正确的方式提问,却又哑口无言。
我谢谢你的好意,看得出你和我的背景一致。请不要看不起自己。真的,任何人都可以成为伟大的统计学家。高尔顿,Karl Pearson, 戈塞特,费舍尔等都不是数学背景出生的。但他们占据了统计学领域最伟大的人的行列。无人能够望其项背。
wuhuya (wuhuya):兄弟,我姑且还能利用自己的统计知识苟且偷生,不过我虽有PHD但是依然不能很自信的在统计领域做研究,因为自己不懂,这里水太深了,而且越做越觉得不懂。
哲学是很好的,我很崇拜,很高兴你能喜欢,也希望能好好地利用。
其实别人说什么真的不重要,重要的是自己要学会放下。真正的月亮在天上,不在水里,没有水就没有水中的月亮。
TNEGIETNI (lovewisdom):让我给你一点信心。统计方法的诞生不在数学理论中,而在现实样本中。你只要掌握了基本的统计学思维,又有了独特的研究设计和样本来源,你就拥有了创造方法的前提基础。
你感到这里水深,是因为那些不懂统计的数学家把这里的水搅浑了。他们以为只要给定一个数学假设,就可以构建出一套方法,然后要大家依从他们的假设。荒谬之极。
wuhuya (wuhuya):谢谢你,我真的不缺自信,缺钱倒是真的:-)。你保重吧。。。
bearJhonson (八棵七七葚):“我的良好的哲学素养帮助我完成了这个研究”,ORZ。
TNEGIETNI (lovewisdom):你知道什么是哲学素养吗?让我告诉你:它极其简单,就是在任何时候对被认知对象作出“它是什么?”的回答,就如同我在第20楼里提出的那几个问题一般。
Actuaries (striving):You need to understand a little bit math first and then you can formulate your question. Beside of Confucius' quotes, another quote from Plato: "Let no one ignorant of geometry enter."
TNEGIETNI (lovewisdom):你真以为你那点shit数学知识就能推导出统计方法?你有本事回答我在第20楼和第122楼中提出的问题,并将你的答案写在这里。我当然相信你有能力回答,且答案会与我的一致,只是,你不敢!!
Actuaries (striving):One ID have told u exactly our feeling about your so-called questions.
发信人: dingxu (保密), 信区: Statistics
标 题: 请教陈大师几个问题
发信站: BBS 未名空间站 (Mon May 9 00:10:45 2011, 美东)
这么简单的问题对陈大师一定是小菜一碟了。
1。海里的白矮星唱着红色的歌导致了日本飞了。yes or no?
2。。。。
发这个帖子才发现神经病也是要有天赋的。有木有
TNEGIETNI (lovewisdom):你有兴趣你去回答好了。这个问题与我无关。我们在那里讨论的是什么是随机变量!!!我只要求你回答它们是还是不是。你有种就说它们不是。别在我面前表现得像个学术流氓似的。