更新时间:2021年05月11日16时05分 来源:传智教育 浏览次数:
网站地图(SiteMap),也叫站点地图,是把网站中所有页面的链接都放在网页上的网页。搜索蜘蛛很喜欢网站地图,SiteMap是网站所有链接的容器。许多网站连通的层次比较深,蜘蛛很难抓到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清楚了解网站的结构,网站地图一般被命名为sitemap,为搜索引擎蜘蛛指引方向,增加对网站重要内容页面的收录。
网站地图格式一般是.xml格式的居多,那么如何将.xml文件转为.txt格式呢?下面我们通过Python来实现。
# 导入requests模块,用于获取网站地图源码 import requests # 导入正则表达式模块,用于在xml网站地图中获取链接地址 import re # 获取传智教育网站地图源码 sitemap_xml = requests.get('http://www.itcast.cn/sitemap/sitemap.xml').text # 使用正则表达式匹配网站地图中的链接 url = re.findall(r'<loc>(.*)</loc>', sitemap_xml) # 使用join()函数在每条链接钱前面加个换行符 url_line = '\n'.join(str(url_one) for url_one in url) # 将获取的链接保存为sitemap.xml open(r'sitemap.txt', 'w', encoding='utf-8').write(url_line)
猜你喜欢: