按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
一、文本分析技术特点
由于词意库是自学习形成,因此不需要预先设置庞大的词典库,而且最重要的是;学习
是持续性的,系统对词意的理解会随着外界的变化而变化,并能不断增添新创词汇。
由于同一个词,对于不同的人,词意可能是不同的,因此可以根据每个用户的习惯形成
自己的子词意库,可使用子词意库对文本进行二次分析,产生个性化结果。
系统的学习分为两种方式:
知识学习 系统自动在互联网上进行,无特定目的地吸收网上各种信息,并对收集到的
信息进行分析后作为知识保留,整个过程无需人工干预,可一天24 小时不间断地进行。
经验学习 每一次用户的具体使用,其结果也将作为经验保留下来,并对知识学习的结
果进行修正。
分词技术不追求 100%的准确,而讲究实用、快速,不依赖于庞大的词汇库或知识库,
因此可以做到不针对特定领域,可解决人名、地名、新出现的词汇等的分词,这些问题是传
统分词方法难以解决的,尤其是新词汇的分词,几乎是一个世界性的难题。
由于整个核心算法并非基于字、词典及语法,而是从模仿人类对语言文字的理解入手,
比如一个儿童并不懂得查字典和语法,但能够听懂别人说的话,因此对核心只要稍作修改便
能够用于英语及其它文字语言,就好象一个婴儿,你把他放到哪个国家,他就能学会当地的
语言。
二、文本分析应用
1、相关性搜索
相关性搜索是根据关键词的词意,与文章提取的重点要素进行比对,以此生成搜索结果,
这将是真正基于内容分析的搜索结果,而并非仅仅是简单的全文检索。
比如在一篇计算机相关的文章中,可能计算机这个词出现得很少、甚至根本没有,而大
量出现的可能是软件、硬件、程序、内存等词汇,也有可能在文章中不叫“计算机”而叫“电
脑”,当使用“计算机”这个词汇进行检索时,系统可分析出从文章中提取的重点要素与“计
算机”这个词是密切相关的,因此也会将其放入检索结果。
另外可以避免将错误结果放入,比如用“苹果”搜索,却把有关“苹果色素”的文章放
在了搜索结果中,而“苹果”和“苹果色素”完全是两回事。
2、个性化搜索
根据用户爱好和习惯,自动搜索其所需要的内容。通过某种技术,可以从用户所浏览页
面中分析出用户的爱好和习惯,进而在用户进入网站时自动将他最喜欢的内容呈现在他的眼
前,而且这种分析也是持续性的,可以即时掌握用户习惯和爱好的变化。
第 55 页
… Page 64…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
个性化搜索最大的问题是用户嫌麻烦,不愿意用。而且习惯和爱好是发展变化的,这种
变化一般是潜移默化的,用户自己也难以查觉而去修改所设置的关键词,即使查觉,也往往
会忘记和懒得去修改。
3、其他应用
A。 自动摘要 由于使用了词意的理解,使得摘要的准确性大大提高,而且因为核心算
法并非针对某个特定领域,所以应用的范围也是全领域的。
B。 自动分类 比如输入一个产品,电脑系统能够自动将其归到一个产品类录下面。这
对搜索引擎、电子商务、供求信息等网站也是非常有用的,然而这也是一个世界性的难题。
目前一般都是采用人工来进行分类,比如搜狐就曾在网上发动大量的志愿者对其搜索引擎进
行分类整理,但可想而知这样做在成本、效率、准确度等方面都难以满足要求。
C。 应用核心技术开发出其它特定功能的软件。
第 56 页
… Page 65…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
第五章 了解网站的搜索引擎表现
第一节 基础查询
一、域名信息查询
域名归属:查看域名所有人、注册时间、到期时间等。
英文域名信息查询:whois
中文域名信息查询:cnnic
一般域名注册商网站也提供此类查询功能。
二、域名历史查询
有些没在使用也没有被注册的域名,可能是因为作弊被 Google 或者百度处罚过的。在
注册新域名的时候,有必要留个心眼,以免捡了别人的垃圾。
domain…history。domaintools
三、主机连接速度和 IP 地址查询
开始…运行…输入“cmd”进入命令行窗口。
输入 ping timev,返回以下内容:
Ping timev '61。141。5。50' with 32 bytes of Date:
Reply from 61。141。5。50: bytes=32 time=282ms TTL=54
其中 61。141。5。50 就是网站的IP 地址,time 282ms 这个数值越小表明速度越快。
需要注意的是,这个数值仅仅反应相对的速度,比如今天是不是比昨天慢了好多。收到
查询者和网站主机所处区域和运营商的限制,会有很大的差异。比如你是电信用户,查询网
通的主机可能显示速度比较慢,但是网通用户查询起来就很正常。
可以让不同地区的朋友,特别是网站主要目标用户群体所在地区的朋友帮助你做一些测
试,如果普遍反应很慢,就要考虑换主机服务商了。
四、同IP 网站查询
用来查询在和你的网站同一个 IP 地址上,还有哪些网站。这往往对于虚拟主机比较有
用,你可以看看和你在同一个服务器上有哪些邻居,也可以看看这些邻居是不是都是些安分
守己网站,如果发现其中有明显搜索引擎作弊的网站,就要引起注意了,因为你的网站有可
能收到牵连。
查询地址:114best
第 57 页
… Page 66…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
第二节 收录查询
一、是否被收录
直接在搜索引擎搜索域名。比如在百度搜索 timev
浩维互动
首页 关于我们 服务内容 客户案例 知识库 浩维博客 联系方式 互联
网战略规划 网站诊断和网站策划 搜索引擎营销和优化 互联网开源计
划 行业解决方案 超越客户期望 互联网是增强企业竞争优势的资源,互
联网应用应该具有整体性和长期性,并应该融入。。。
timev/ 6K 2007…3…6 … 百度快照
这就说明网站已经被收录了。
如果显示下面的结果,说明网站还没有被收录。
你可以直接访问:timev/
百度建议你:
# 如果网址正确,请点击上面的链接
# 如果你在寻找包含“timev/”的所有网页,请点击这里查询
需要注意的是,有时候你解析的域名是timev 而不是timev,那要查询解析
的那个。
二、网页收录数量
一般可以通过在搜索引擎搜索框输入“site:”命令来查看某网站被搜索引擎收录的网页
数量。
site:163
找到相关网页约40,400,000 篇。
查看网址中包含 163 的网页收录数,例如news。163、tech。163、bbs。163、
blog。163 开头的网页都会被统计在内。
site:163
找到相关网页 189 篇。
site:tech。163
找到相关网页约 1,480,000 篇。
(以上数据来自2007 年3 月26 日百度查询结果)
一般来说,网页收录数量反应了网站内容的丰富程度。对于一个网站来说,如果内容不
断更新,网页收录数也会随之增加。
目前搜索引擎已经能够收录动态的网页。由于各个搜索引擎由于算法不一样,对同一个
网站的网页收录数量会有所区别。如果某个网站的网页收录数量忽然大幅下跌,可能说明网
第 58 页
… Page 67…
搜索引擎优化魔法书 SEO Magic Book 浩维互动免费电子书 timev
站因为存在一些不符合搜索引擎要求的地方,被搜索引擎处罚了。
可以说,网页收录数是网站搜索引擎表现的一个晴雨表。
第三节 反向链接查询
前面的章节提到,搜索引擎会根据一个网站被其他网站链接的数量和质量来决定网站在
搜索结果中的排名。
有的网站链接是网站主管理员动寻求、添加和交换的,而有的时候,别的网站会主动链
接过来,一些包含网站链接的文章被转载或者发布在论坛、博客,都有可能带来意料之外的
链接。
看看哪些网站链接了你,可以使用link 命令。