« 从Larbin看互联网爬虫设计 | Main | 使用memcached进行内存缓存 »

January 09, 2006

互联网结构化数据时代

近期互联网出现了一些有趣的应用:博客,图片博客,贴吧,douban,招贴栏。这些应用的共同点之一就是数据的结构化。

以往互动的形式基本上就是论坛。在那个时期产生了大量的论坛网站,xici,xilu,天漄等等。论坛的发展经画了从开始的单版面到多版面,然后到任意申请版面的过程。论坛上讨论的内容也是五花八门,基本上所有的内容形式都可以通过论坛来进行。

互联网没有停止发展的脚步,论坛使用的通用的数据结构已经不能满足越来越多,越来越细分的市场需求,于是博客,贴吧,招贴栏等等以某种结构化数据为基础的应用大行其道。

google base也可以看出google对这一发展趋势的理解:从博客到租房信息,从人物信息到产品介绍,针对种种独特的数据结构的应用必将越来越多,而且越来越受人欢迎。

结构化的数据更加容易检索。非结构化的内容难易进行很好的搜索,因为内容杂乱无章,仅能凭语义进进分析,精确度有待提高。搜索领域有一个重要研究方向就是IE(Information Extraction)。而基于结构化数据的应用,可以非常方便的进行信息抽取,进而准确方便的进行检索。

结构化的数据更加容易传递。数据也是一种服务,我一直有个理解就是博客实际上是作者提供给读者的互联网服务,由于有了rss的存在使博客从本质上与个人主页区分开来。而基于结构化的数据的应用都像博客一样,提供了服务。这个服务不仅仅提供给读者,也提供给产业链上的下游环节,用于再加工,再组织,进行附加增值生产。

未来的互联网如何发展尚未可知,但目前的互联网,结构化数据应用的浪潮已经来临。

yudunde 发表于 January 9, 2006 11:05 PM | Blog

以往文章

互联网结构化数据时代

评论

我来说两句




Remember Me?

(you may use HTML tags for style)