net commerce

首页文章列表博文目录

个人资料

netcom

给我悄悄话

博客访问：

Tags,无序,分类和家族相似

(2010-07-26 01:47:55) 下一个

4月5日

本体论与分众论

folksonomy按照数学模型的理论推断的确能达到最终的见山是山,见水是水,见山不是山,见水不是水,见山还是山,见水还是水的这么一种由浅入深,有内到外,有最终形成一种提纲挈领的的判断.

为什么突然想起这个呢？今天看到ptree《同分妄见与家族相似》提到从哲学上，探讨本体论与分众论的历史渊源。很值得一读。其实期间还有值得挖掘的东西还很多
http://ecolab.ruc.edu.cn/blog/zhangsr.php?itemid=132

3月28日

Tags,无序,分类和家族相似

如果你已经看相关的关于Tags的各种说法，我希望你能够暂时忘掉全部的那些解释，之后再重新回忆起来；但如果你还不了解Tags，那么有必要先阅读文章最后留下的链接，然后回到上一步：）

　　那么，什么是Tags？很简单，往下看；

·经典的信息构成模式；

　　在传统的网页组成中，我们通常使用Taxonomy(分类法)来归纳、整理和存放我们的信息，图书馆是一个绝好的例子，所有的信息从一个点开始，形成树状的分类，由此构成一个完整的、相互联系起来逻辑体系；
　　这个体系从一开始就是人为分类形成的，在我们需要检索的时候，几乎不需要费多大的劲；

　　[例子]比如我们的Blog，首先有一个主标题，然后下分若干分类，实际的文章则分类储存在这些不同的分类中；在一般情况下，我们不允许一个文章同时存在于多个分类中，以便于我们管理的方便和检索的唯一性；

　　在网络上,dmoz和wiki都算是比较典型和知名的例子；

·散秩的信息构成模式；

　　看似无序的浩渺信息，其中的绝大部分是通过“语言”来描述的，这表明了这些信息的指向性，因此我们通过提取这些语言（文字、文本）的相同部分，以此获得相关的信息；这些信息平时是完全松散、互不联系的，当且仅当我们对其加以提取的时候才呈现相对紧凑的组织结构，即便如此，这个结构和经典的分类结构相比，仍然是足够散秩的。

　　[例子]你可能已经想到了，Google嘛。目前绝大部分的搜索引擎所依赖的正是这一点，因此对于分词的研究是这些搜索引擎始终的重点和痛苦，其他的不说，仅仅逻辑实证主义和日常语言学派这两个当代的流派就足够他们折腾到下个世纪去了。
　　举一个恶搞点的例子：当我说：“他妈”的时候，仅仅检索关键字而并不关心其在日常语言中实际运用的搜索引擎怎么知道我是在骂人还是在陈诉一个归属性事实呢？更何况我们经常面对google上数万和关键字原本语义要求完全不同的搜索结果长声叹息。

　　[简介]
　　逻辑实证主义：认为人类的日常语言充满的谬误，需要彻底厘平，重构一个像数学一样完美的逻辑语言体系；
　　日常语言学派：认为人类的日常语言是非常合理而符合现实的，“完美”的逻辑语言并不存在而且也不符合现实；唯一的问题在于人们使用日常语言的时候出了一些方法上的问题，这需要我们加以重视和研究。
　　（后者正是我倾向赞同的结论）

·符合未来发展的信息构成模式；

　　现在我们综合起来考察以上两种在我们日常生活中显得日益重要的信息构成模式，会发现他们各有优点和缺陷；
　　对于前者而言，语言所表达和内涵的思想是广博的，构造简单的分类逻辑无法诠释和标识某一篇文章所设计的全部重点，复杂的分类则将陷入无限微观的悖论逻辑；
　　对于后者而言，除开分词的烦恼，Google们也许还希望承天下之大义担负起教导每一个人重修日常语言学分的重任，并且要求每一个人都能达到维特根斯坦的高度。

　　路德维奇·维特根斯坦？对了，这终于回到我们的重点。
　　维特根斯坦本人正是逻辑实证主义和日常语言学派先后的奠基人，而在他的后期的日常语言思想中，他提出了一个大家相对比较熟悉的观点：家族相似。

　　以下引用一段话作大致的解释：

维特根施坦从“反本质主义”立场出发反对语词的定义化。本质主义者认为同一类事物之所以成为该类事物，是由于它们具有共同的本质（共相），定义就是规定事物的这种本质。维特根施坦则认为事物根本没有共同的本质，只有“家族相似”。所谓“家族相似”不是共同的相似，而是这一方面或那一方面的不完全相似。例如一个家族中的成员之间有的眼睛相似，有的神态相似，有的脸庞相似。因此，维特根施坦坚持一种唯名论的立场，认为人们在日常生活中使用一般性的名词概念只是为了方便，本质、共相那种形而上学的东西是不存在的。误把这些东西当作存在，就会染上“哲学病”。

　　好吧，看出来了吗？那些相似的地方就是Tags（标签）;上面引用中处处提到本质、反本质、家族相似，我们处处可以当作分类、碎片和标签来阅读和理解。

　　家族相似（Tags）表明了对传统分类学(Category)的立场，如同日常语言学派对待黑格尔体系的观点，要求瓦解普遍、瓦解大一统、瓦解唯一性等这些经典哲学孜孜以求的目标，代之以碎片式的结构，这些碎片之间的联系，仅仅存在于当人们需要它们的时候。

　　带有碎片语义色彩，富于哲学战斗力的Tags和检索关键字相对而言，其形成是主动而非被动的，是主动聚合而不是等待被动的检索，其形成的过程经历了人为的筛选，相对而言更符合日常语言的正常使用；例如全世界关于“SMTH”的信息，尽管有些文章通篇都没有写到一个涉及SMTH的字符，但是它所描述的事实确实是与此相关。

　　如果我们脱离哲学而不论，Tag实际上同时带有传统分类法和搜索关键词这两大信息构成模式的共同特点，同时消除了相当一部分它们在各自方面的缺憾和弱点。

　　需要指出的是，从现有的应用和理论分析看来，分类、标签和无序关键字有着不同的运用范畴；对于微观的、少量的信息，分类法已经足够我们使用；对于海量的，无边无际的无序信息，关键字也许是现阶段应用最广泛且被普遍接受的组织方式；而在两者之间，一个足够大、有更高系统化要求和精确度要求的信息群而言，Tag也许是最佳的选择。

　　在Blog中使用Tags？
　　如果一些人恶意地使用Tag，将使其失去意义，这类似于在mata标签中强行加入无数完全与网页本身无关的keyword这种无聊的举动，以及后来四处散发冗余链接的小p孩；在一个开放型的超人气论坛上使用Tags当然不存在技术问题，但是也许不算是一个好主意，特别是在中国。

　　相对而言，Blog的主人对自己的log会比较负责，能够认真地筛选发布在自己log上的信息，或者对此作出评论和传播，因此在Blog上结构Tag对信息的有序化是有积极意义的；
　　但是，对于个人的Blog，Tag的意义微乎其微——因为作为个人发布源的信息容量实在太小；如果Blog需要Tag的话，它必然是针对一个大范围的用户群，有两种比较适合的情况：一种是拥有动则数千数十万用户的多用户Blog站点，另外一种则是基于XML的聚合站点；
　　不论如何，Tag所针对的都是大信息容量的有序化问题，有利于用户在这些巨大的库存中精确地定位符合语义信息的节点，而并非针对个人Blog信息的有序化问题；

　　Tags，无序信息、标签和分类法，以上的分析可以算作哲学走在科技之前的一个比较典型的例子，至少纵观国内应用，还没有相关的开发项目；
　　BXNA的Blog聚合仍然依赖于分类，听说试图进入分词领域，但是这对于BXNA聚合的那点信息而言实在有牛刀屠鸡之嫌；而其他一些Tag服务商并没有对Blog的直接支持；
　　这么大的蛋糕，谁会吃到呢？作为先锋的技术引领者？Blog程序的提供商？还是资本的所有者呢？个人以为，拥有广泛用户群的聚合服务商或者Blog提供商，抢先发布基于Tag的主动式聚合平台，或者是基于TrackBack的被动式聚合平台，也许在未来，就可以理所当然地成为资本的所有者。

　　最后，关于Tag具体的开发和管理等技术，不属于本文讨论的范围，请参看相关的其他文章。
[END]

　　**本文作为一份小小的礼物以答谢Rainbow（Z-Log）不厌其烦的人工智能咨询；

　　**文章也许过于纷乱不知所云，或者涉及面比较广，欢迎留言给我，共同讨论，更欢迎尖锐无情的批评和指正。

相关文章
Tags：
http://www.mulog.org/mulog/blogview.asp?logID=607
http://www.zuola.com/weblog/blogview.asp?logID=206
http://www.technorati.com/help/tags.html
http://ping.geneboy.net/2005/03/tagcategorykeyword.html
http://www.myie2.com/sic/blog/article.asp?id=53
http://duduwolf.winzheng.com/post/50.asp
http://blog.timetide.net/archives/2005/02/04/20050204163145.php
http://blog.94smart.com/index.php?q=node/125
http://heterotopias.org/node/506

维特根斯坦，以及家族相似：
http://philo.ruc.edu.cn/dept/sophia/course/linguistic/200410/381.html
http://philo.ruc.edu.cn/pol04/Article/western/w_as/200411/1339.html

相关链接
http://www.tenbyten.org/10x10.html
http://www.technorati.com/

2005-3-27 17:15:51 Aether answer vistor:我觉得有必要讨论tags应用的两个重点，
　　1、适用范围；
　　Tags应用必然是针对广泛、相对散秩同时有更高质量要求的信息群落；（和生命本身一样，也是整体无序中产生的部分有序）
　　这个无序的群落要构成足以产生有序的宏观规模，少则几千，多则应该上万，数十万；但是同时不能无限制膨胀，规模再高，Tags的作用可能就不及完全无序的关键字了；
　　因此仅仅在一个个人Blog的内部，为区区数十上百条信息建构相对散秩的Tags，实际意义不大，因为对于少量信息人为的分类应该已经足够；而通过统一的标准加以组织、集中和聚合，才有可能形成有效的规模；

　　2、关键效用；
　　Tags产生以后，在检索的过程中，和关键字检索几乎没有任何区别；因此Tags的关键部分在于它产生的过程：广大的用户群对录入的信息人为地加以预筛选。
　　因此这要求对录入的过程有比较有效的监督；同Wiki一样，这种开放式的预筛选过程不同于分类法的完全封闭和控制，这方面的研究还有待深入和继续。 (via here)

[ 打印 ]

[ 加入书签 ]

阅读 () ┆ 评论

目前还没有任何评论

登录后才可评论.