课后习题答案首页 > 全部分类 > 大学本科

题目内容（请给出正确答案）

[判断题]

robots协议是用来规定搜索引擎能够爬取哪些目录的协议。

查看答案

网友您好，请在下方输入框内输入要搜索的题目：

AI搜题 NEW

搜题

更多“robots协议是用来规定搜索引擎能够爬取哪些目录的协议。”相关的问题

第1题

下列关于robots的说法错误的一项是（）

A.搜索一起拿爬不爬取robots.txt文件不在协议范围内，只是道德约束

B.robots.txt可以让搜索引擎知道哪些可以爬取哪些不可以爬取

C.robots.txt文件放在根目录下

D.robots.txt文件屏蔽隐私文件，在网络上安全可靠

点击查看答案

第2题

在爬取某网页的信息时，该网页的robots协议不适用于各类爬虫程序（）

点击查看答案

第3题

选项中关于爬虫理论的说法错误的是（）

A．对网站内容的爬虫可以随意进行，不需要制约

B．频次很高的大型爬虫会给服务器造成压力与伤害

C．Robots 协议的全称是网络爬虫排除标准（robots exclusion protocol），规定了可以爬取和不可爬取的页面

D．Robots 协议里最常出现的英文 Allow 可以被访问，Disallow 代表禁止被访问

点击查看答案

第4题

下列哪种爬虫行为是合法的()。

A.未经平台及用户授权，通过技术手段爬取其他平台的用户信息

B.绕开技术措施爬取竞争对手数据

C.爬取网站数据前，审阅、分析被爬取网站的Robots协议，并且在爬取数据时不违反Robots协议

D.爬取网站上视频、音乐、文字等可能构成作品的数据

点击查看答案

第5题

Robots.txt文件是搜索引擎抓取网站第一个需要查看的文件，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。在www.domain.com中，如禁止所有搜索引擎程序抓取www.domain.com/A下所有内容，Robots文件应如何设置（）

A."User-agent：*Disallow：/A"

B."User-agent：Allow：/A"

C."User-agent：Disallow：/"

D."User-agent：*Allow：/"

点击查看答案

第6题

Robots.txt文件是搜索引擎抓取网站第一个需要查看的文件，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。在www.domain.com中，如禁止所有搜索引擎程序抓取www.domain.com/A下所有内容，Robots文件应如何设置？（）

A."User-agent：*Disallow：/A"

B. "User-agent：Allow：/A"

C. "User-agent：Disallow：/"

D. "User-agent：*Allow：/"

点击查看答案

第7题

Robots协议的全称是“网络爬虫排除标准”，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。Robots协议一般存放于网站根目录下的（）文件中

A.bc.txt

B.disallow.txt

C.aggrement.txt

D.robots.txt

点击查看答案

第8题

搜索引擎中的robots遵循__，自动追寻着超文本的链接，发现新的信息（）

A.HTTP协议

B.HTML协议

C.POP3 协议

D.SMTP协议

点击查看答案

第9题

以下哪些属于违法爬取数据（）

A.爬取robots, tx禁止的数据

B.爬取用户隐私

C.大量、频繁爬取某一网站数据，致使对方服务器出现异常

D.爬取网站协议禁止的数据

点击查看答案

第10题

网站使用robots协议的主要目的在于告知搜索引擎以下哪项内容（）

A.网站全部内容不想被搜索引擎抓取

B.网站全部内容愿意被搜索引擎抓取

C.网站中哪些内容不想被搜索引擎抓取

D.网站中的内容已经被哪些搜索引擎抓取

点击查看答案

第11题

如何建立符合搜索抓取习惯的网站？（）

A.网站层次结构明了，并尽量保证spider的可读性

B. url尽量短且易读使得用户能够快速理解

C. 建立网站sitemap文件，前及时通过百度站长平台提交

D. robots文件是封禁搜索引擎抓取，所以此Robots文件尽量少用

点击查看答案

账号：尚未登录

登录没有账号？去注册

我要提问联系客服购买搜题卡

题库练习课程学习

功能	扣减规则
功能	基础费（查看答案）	加收费（AI功能）
文字搜题、查看答案	1/每题	0/每次
语音搜题、查看答案	1/每题	2/每次
单题拍照识别、查看答案	1/每题	2/每次
整页拍照识别、查看答案	1/每题	5/每次