-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path0201_imperativos.py
32 lines (27 loc) · 1.06 KB
/
0201_imperativos.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import requests
from lxml import html
def download(url):
r = requests.get(url)
if r.status_code != 200:
raise Exception("! Error {} retrieving url {}".format(r.status_code, url))
return r
lista_imperativos = []
xpath_string = '//html/body/div[3]/div[3]/div[4]/div[2]/div/div/div/div/ul/li/a/@title'
url = '/w/index.php?title=Categor%C3%ADa:ES:Imperativos&from=A'
while url != None:
page = download('https://es.wiktionary.org' + url)
# Necesito cargar mi html en una estructura de árbol XML
tree = html.fromstring(page.content)
urls = tree.xpath('/html/body/div[3]/div[3]/div[4]/div[2]/div/a[4]/@href')
if len(urls) > 0:
url = urls[0]
else:
url = None
# Hago la llamada al XPath para obtener los resultados
results = tree.xpath(xpath_string)
for result in results:
lista_imperativos.append(result)
archivo_imperativos = open("0202_lista_imperativos.txt","w")
for imperativo in lista_imperativos:
archivo_imperativos.write(imperativo + '\n')
archivo_imperativos.close()