# coding:utf-8
#程序运行完成时一定要有输出语句,本工具才能正确展示运行结果。 
#打开cmd输入:pip3 install selenium
#根据谷歌浏览器版本在Python安装目录放置谷歌浏览器驱动目录Python37\Scripts\chromedriver.exe

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
import re

def getData():
    time_dq=time.strftime("%Y-%m-%d_%H.%M.%S")
    chrome_options = Options()
    chrome_options.add_argument('--headless')# 无头模式启动
    chrome_options.add_argument('--disable-gpu')# 谷歌文档提到需要加上这个属性来规避bug
    # chrome_options.add_argument('start-maximized')#谷歌浏览器最大化启动
    # chrome_options.add_argument('--no-sandbox')#没有沙盒box
    # chrome_options.add_argument(r'--proxy-server=http://IP:Port')#浏览器IP代理
    driver = webdriver.Chrome(options=chrome_options)#初始化实例

    url_a='https://www.xd0.com/'
    driver.implicitly_wait(10)#隐式等待
    driver.get(url_a)
    page_a=driver.page_source    # selenium的page_source可以直接返回页面源码,重新赋值后打印出来

    url_list=re.findall('href=\"(.*?)\"',page_a,re.S)
    url_get=[]
    for i in url_list:
        if 'http' in i:
            print(i)
            url_get.append(i+'\n')
            # 抓取写入
            f1 = open(r'A_%s.txt' % (time_dq), mode='w+')
            f1.writelines(url_get)
            f1.close()
            driver.quit()  # 关闭释放内存

if __name__ == '__main__':
    getData()
error14(Error_14) - 2019-08-26 1 人
获取目标网页所有超链接(http/https)
licy(前端菜鸡) - 2019-08-16 5 人
防抖与节流区别理解
chaoleng(null) - 2019-08-13 1 人
Java_Project1
18303361943(前端大神) - 2019-08-12 1 人
LOVE制作
bnlwl(null) - 2019-08-08 1 人
好帅的svg
mrleo(前端大神) - 2019-08-08 1 人
简易的导航栏下拉效果