Web 站内

互联网档案馆(The Internet Archive)及其在网络营销研究中的应用

(www.marketingman.net 冯英健 2004-11-22)

【摘要】:自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份”一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。对网站不同时期的历史资料进行研究,是互联网档案馆最大的价值所在。

如果网站被收录到互联网档案馆(The Internet Archive),在下面查询框中输入网址并点击查询档案按钮,就可以看到一个网站在不同时期的历史资料。

Wayback Machine-网站档案馆网站·时光倒流机器
Advanced Search | About the Wayback Machine

在介绍Alexa网站流量排名系统时,已经提到过Wayback Machine,网上营销新观察(http://www.marketingman.net)现在将要介绍这个有用的研究工具。为了方便起见,这里将这一工具的提供者The Internet Archive(http://www.archive.org)意译为“网站档案馆”。与Alexa网站流量排名工具相比,使用互联网档案馆(The Internet Archive)的知名度可能要小一些,但不要小看这个“网站时光倒流机器”(Wayback Machine)工具,它所收录的信息可能是最大的互联网档案数据库!

顾名思义,互联网档案馆就是保留所有网站信息的地方,这个档案馆和Alexa有着密切的关系,因为互联网档案馆搜集的网站资源主要来自于Alexa及部分其它网站,也接受主动加入的网站(如果你发现自己的网站没有被收录,可以主动添加到互联网档案馆)。互联网档案馆位于美国旧金山,与Alexa一样诞生于1996年,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份”一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。对于互联网档案馆收集网站信息的原则,我们这里不去深入探讨,本文的目的在于希望利用这些被收集的信息为网络营销研究和实践提供支持。

我们知道,一个网站通常并不总是一个面孔,也就是说网站在不同时期会有不同版本的内容,而同一版本的网站内容也是不断变化的,仍以网上营销新观察为例,现在的内容比1999年时要丰富得多,而网站的结构也有一定的变化,如果想了解网站最初的情况,由于自己保存的资料不断更新,加之电脑多次更换和升级,早已找不到最初的信息了,早期的一些内容后来已经被更新的内容所取代,但有时又会想起某一篇文章仍然有参考价值,从自己的电脑中已经无法找到其本来面目了,好在这家美国的“互联网档案馆”帮我做了部分备份,通过1999年收录的部分内容还可以找到一些有价值的信息。这是互联网档案馆提供的价值的一点反映,这么一个庞大的资源库,其价值当然不止这些,因为我们还可以将这些应用推广到对多个行业、多个网站更多方面的研究。

对网站不同时期的历史资料进行研究,是互联网档案馆最大的价值所在。相对于Alexa网站流量排名系统来说,其应用范围非常专一,站在网络营销研究的角度,The Internet Archive的作用可以归纳为两个方面:(1)从纵向来看,也就是以互联网发展时间来研究,通过对网站某些时间层面信息的分析,可以获得网站在不同时期的结构和内容的一般特征及其演变趋势;(2)从横向来看,即从某一时间层面上来研究某一时期不同网站之间的相关参数,这些原始信息的获取非常重要。当然,这种应用不仅适用于网络营销的研究,对整个互联网领域发展演变的研究都是适用的。

我在写作《网络营销基础与实践》第2版中有关企业网站变迁的内容时,为了列举几个例子(如长虹企业网站栏目结构和首页信息的演变),就是通过互联网档案馆提供的历史资料才完成的。而在编译和整理电子书《网站推广29种常用方法》(http://www.marketingman.net/recommend/Wilson_29ways.htm),为了与原著作者几年前的一篇文章“23 Ways to Promote Your Site”的中文译文 进行比较,也只好借助于互联网档案馆所收藏的网页资源。

从The Internet Archive收录的网站中可以查看的内容一般是静态内容,如果需要用户登录才能查看的网页,以及动态生成的网页,是无法被收录的,这也给我们提了个醒:不仅在进行搜索引擎优化时静态网页很重要,如果你希望自己的网站信息被收录在案,尽可能使用静态网页,或者至少部分重要页面采用静态网页也是非常必要的。从另外一个角度来说,由于互联网档案馆忠实地记录了一个网站不同阶段网站的基本结构和内容,如果网站上曾经有一些后来不太希望再出现的信息,这种历史也是无法改变的。

另外,互联网档案馆的资料作为独立的第三方机构,通过网页资料被收录的时间先后,也可以确认哪些内容首先出现在哪个网站,这也为确认某些内容的原始来源提供了依据。

The Internet Archive虽然是这么一个应用非常专一的工具,其访问量仍然非常可观,这可以从Alexa网站流量排名得以说明:目前(2004年11月20日)其全球网站排名为259,从最近6个月的访问量统计曲线也可以看出,其排名一直在200名左右。由此可见,这家互联网档案馆提供的免费资源有许多用户在使用,值得深入研究和充分利用。

(版权所有 未经书面许可 严禁任何形式的转载和传播)

关于网上营销新观察| 网站地图| 本站动态| 媒体报导| 版权声明| 联系方式| 冯英健的博客文章
网上营销新观察版权所有
粤ICP备2020132712号