首页- 百度优化资讯- 教你如何收录新的网站和快速排序

教你如何收录新的网站和快速排序

来源:seo优化 发布时间:2021-03-15 17:00:00

我们遇到的最常见的问题之一是“如何确定哪些结果位于搜索结果的顶部?”mattcutts向我们展示了如何抓取、包含和评价web页面。

在你看到搜索结果中出现的页面之前,百度已经在后台做了很多步骤。第 一步是在互联网上抓取并记录数十亿个网页。这项工作是由百度的机器人完成的,它可以浏览web服务器并获取文件。爬行程序不是漫无目的地在互联网上游荡,它先访问服务器的特定网页,然后扫描网页上的超文本链接,如果有新的文件也是这样抓取的;蜘蛛程序给每个网页一个编号,这个编号指的是它爬行的网页。

蜘蛛程序抓取了很多网页,但这些网页不容易搜索。如果你没有索引,你想查询一个单词,比如“内战”,百度的服务器每次都会读取每个文件的所有内容。

因此,第二步是建立一个百度如何收录的索引。我们没有扫描每个文件的所有内容,而是巧妙地“转换”数据并列出每个文件中包含的特定单词。例如,“国内”一词可能出现在文件3、8、22、56、68和92中,而“战争”一词则出现在文件2、8、15、22、68和77中。

建立索引后,我们就可以开始对网页进行评分,并确定网页的相关性。假设有人在百度的搜索栏中输入“内战”进行查询。为了提交搜索结果并对结果进行评级,我们需要做两件事:

百度开发了一种有趣的技术来加速第 一步:百度没有将整个索引存储在一台功能强大的计算机上,而是使用数千台计算机来存储信息。因为任务被分解成许多计算机,你可以更快地找到你需要的答案。让我们详细解释一下。假设一本书的目录里有30页。如果一个人想在目录中搜索信息,每次查询都需要几秒钟的时间。如果用30个人来查询目录的一页,显然要比一个人快得多。同样,百度在许多电脑上分别存储数据,这将大大加快搜索速度。

我们如何找到那些包含用户搜索词的页面?回到“内战”的例子,“国内”一词出现在第3、8、22、56、68和92号文件中;“战争”一词出现在第2、8、15、22、68和77号文件中。写下两个单词同时出现的文件。

这样,我们可以清楚地发现,“内战”和“战争”两个词同时出现在三份文件(8、22和68)中。包含这些单词的列表称为“位置列表”。搜索文件包含这两个单词,称为交叉搜索位置列表。(交叉搜索的更快方法是同时搜索。如果其中一个搜索列表为22到68,则另一个可以开始搜索其他列表。)

但是除了PageRank之外,我们还使用许多其他参数来进行评级。例如,如果一份文件同时包含“国内”和“战争”两个词,它可能比一份讨论革命战争的文件(在文件的某处使用“国内”)更相关。例如,假设一页的标题是“内战”,这比另一页标题是“19世纪的美国服装”更为相关。同样,如果“内战”多次出现在网页中,只有一个的网页更为相关。假设你是一个搜索引擎,选择一个单词查询,比如内战或回收,在百度上查询,从结果中选择三到四页并打印出来。从每一张打印出来的纸上找出你搜索句子中的每一个单词,用荧光笔标记,然后把这些纸贴在墙上。退后一步,斜视。当你不知道页面的内容时,你只能看到彩色的方块。你认为哪一页最相关?你认为大标题和重复的颜色代表更高的阶段相关性吗?你喜欢上面的这些词还是下面的?这些词多久出现一次?这就是搜索引擎判断网页相关性的方式。

原则上,百度总是试图找到可靠和相关的网页。如果根据查询语句,两个网页的信息大致相同,百度通常会选择一个更可信的网站的网页。当然,如果有一些因素表明网站更具相关性,百度通常会选择PageRank较低的网站。

一旦百度完成了文件列表和它们的评级,它就会给出得分的页面。同时,百度从网页中提取一个包含查询关键词的短句,并给出网页链接。

对于这种搜索工作,需要进行大量的数据计算。一般来说,对于某个搜索,500多个服务器应该协同工作才能得到匹配结果。当然,结果会在半秒钟内返回给用户。

文章标签:武汉SEO新站收录

Copyright © 2015-2020. 未经许可,不可拷贝或镜像 quntt.net