搜题
第1题
A.搜索一起拿爬不爬取robots.txt文件不在协议范围内,只是道德约束
B.robots.txt可以让搜索引擎知道哪些可以爬取哪些不可以爬取
C.robots.txt文件放在根目录下
D.robots.txt文件屏蔽隐私文件,在网络上安全可靠
第3题
A.对网站内容的爬虫可以随意进行,不需要制约
B.频次很高的大型爬虫会给服务器造成压力与伤害
C.Robots 协议的全称是网络爬虫排除标准(robots exclusion protocol),规定了可以爬取和不可爬取的页面
D.Robots 协议里最常出现的英文 Allow 可以被访问,Disallow 代表禁止被访问
第4题
A.未经平台及用户授权,通过技术手段爬取其他平台的用户信息
B.绕开技术措施爬取竞争对手数据
C.爬取网站数据前,审阅、分析被爬取网站的Robots协议,并且在爬取数据时不违反Robots协议
D.爬取网站上视频、音乐、文字等可能构成作品的数据
第5题
A."User-agent:*Disallow:/A"
B."User-agent:Allow:/A"
C."User-agent:Disallow:/"
D."User-agent:*Allow:/"
第6题
A."User-agent:*Disallow:/A"
B. "User-agent:Allow:/A"
C. "User-agent:Disallow:/"
D. "User-agent:*Allow:/"
第7题
A.bc.txt
B.disallow.txt
C.aggrement.txt
D.robots.txt
第10题
A.网站全部内容不想被搜索引擎抓取
B.网站全部内容愿意被搜索引擎抓取
C.网站中哪些内容不想被搜索引擎抓取
D.网站中的内容已经被哪些搜索引擎抓取
第11题
A.网站层次结构明了,并尽量保证spider的可读性
B. url尽量短且易读使得用户能够快速理解
C. 建立网站sitemap文件,前及时通过百度站长平台提交
D. robots文件是封禁搜索引擎抓取,所以此Robots文件尽量少用
警告:系统检测到您的账号存在安全风险
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!