shovel/main.py

import httplib2
import re
import argparse
from bs4 import BeautifulSoup

if __name__ == '__main__':
    parser = argparse.ArgumentParser(description="Dig out links from a website.")
    parser.add_argument('site', type=str, help="Website that you want to scrape for links.")
    args = parser.parse_args()
    
    h = httplib2.Http('.cache')
    response, content = h.request(args.site)
    s = BeautifulSoup(content)
    """find only file names"""
    links = s.find_all(href=re.compile('\..*$'))
    for link in links:
        print(args.site + link['href'])
Initial version. 2020-06-28 19:11:24 +00:00			`import httplib2`
			`import re`
Add support for specifying website. 2020-06-28 19:20:52 +00:00			`import argparse`
Initial version. 2020-06-28 19:11:24 +00:00			`from bs4 import BeautifulSoup`

			`if __name__ == '__main__':`
Add support for specifying website. 2020-06-28 19:20:52 +00:00			`parser = argparse.ArgumentParser(description="Dig out links from a website.")`
			`parser.add_argument('site', type=str, help="Website that you want to scrape for links.")`
			`args = parser.parse_args()`

Initial version. 2020-06-28 19:11:24 +00:00			`h = httplib2.Http('.cache')`
Add support for specifying website. 2020-06-28 19:20:52 +00:00			`response, content = h.request(args.site)`
Initial version. 2020-06-28 19:11:24 +00:00			`s = BeautifulSoup(content)`
			`"""find only file names"""`
			`links = s.find_all(href=re.compile('\..*$'))`
			`for link in links:`
Add support for specifying website. 2020-06-28 19:20:52 +00:00			`print(args.site + link['href'])`