Skip to content

Commit 5645903

Browse files
authored
Merge pull request #3 from anmerinoto/revert-2-Saskia_Guerrrero
Revert "Descripción del código"
2 parents 490c5f7 + 7b7f34e commit 5645903

File tree

1 file changed

+12
-25
lines changed

1 file changed

+12
-25
lines changed

lessons/02_web_scraping.ipynb

Lines changed: 12 additions & 25 deletions
Original file line numberDiff line numberDiff line change
@@ -49,11 +49,6 @@
4949
"cell_type": "code",
5050
"execution_count": 1,
5151
"metadata": {},
52-
## Saskia_Guerrrero
53-
"outputs": [],
54-
"source": [
55-
"%pip install requests # Instala la librería requests, que permite hacer peticiones HTTP, con ella puedes conectarte a páginas web y obtener su contenido."
56-
##
5752
"outputs": [
5853
{
5954
"name": "stdout",
@@ -72,18 +67,12 @@
7267
"# 🌐 La librería requests es necesaria para hacer solicitudes HTTP y descargar páginas web.\n",
7368
"# 🕸️ Esto es fundamental para hacer web scraping (extraer información de páginas web).\n",
7469
"%pip install requests "
75-
main
7670
]
7771
},
7872
{
7973
"cell_type": "code",
8074
"execution_count": null,
8175
"metadata": {},
82-
# Saskia_Guerrrero
83-
"outputs": [],
84-
"source": [
85-
"%pip install beautifulsoup4 # Instala una librería para parsear HTML y XML, sirve para extraer información específica de una página web."
86-
8776
"outputs": [
8877
{
8978
"name": "stdout",
@@ -115,7 +104,6 @@ main
115104
"# 🥣 La instrucción %pip install beautifulsoup4 sirve para instalar la librería Beautiful Soup 4 en tu entorno de Jupyter Notebook.\n",
116105
"# 🕸️ Beautiful Soup es esencial para analizar y extraer información de archivos HTML y XML, lo que facilita el web scraping.\n",
117106
"%pip install beautifulsoup4"
118-
main
119107
]
120108
},
121109
{
@@ -147,7 +135,7 @@ main
147135
}
148136
],
149137
"source": [
150-
"%pip install lxml # Parsers rápido y eficiente para manejar HTML y XML."
138+
"%pip install lxml"
151139
]
152140
},
153141
{
@@ -158,7 +146,7 @@ main
158146
},
159147
"outputs": [],
160148
"source": [
161-
"# Importa las librerías necesarias para ejecutar el código.\n",
149+
"# Import required libraries\n",
162150
"from bs4 import BeautifulSoup\n",
163151
"from datetime import datetime\n",
164152
"import requests\n",
@@ -202,11 +190,11 @@ main
202190
},
203191
"outputs": [],
204192
"source": [
205-
"# Hace una solicitud HTTP de tipo GET a la página web.\n",
193+
"# Make a GET request\n",
206194
"req = requests.get('http://www.ilga.gov/senate/default.asp')\n",
207-
"# Se obtiene el contenido de la respuesta del servidor en formato de texto.\n",
195+
"# Read the content of the server’s response\n",
208196
"src = req.text\n",
209-
"# Se imprime solo los primeros 1000 caracteres del contenido.\n",
197+
"# View some output\n",
210198
"print(src[:1000])"
211199
]
212200
},
@@ -227,9 +215,9 @@ main
227215
"metadata": {},
228216
"outputs": [],
229217
"source": [
230-
"# Se crea un objeto BeautifulSoup a partir de la variable src (que contiene el HTML obtenido con requests).\n",
218+
"# Parse the response into an HTML tree\n",
231219
"soup = BeautifulSoup(src, 'lxml')\n",
232-
"# Imprime de manera identada gracias a prettify los primeros 1000 caracteres.\n",
220+
"# Take a look\n",
233221
"print(soup.prettify()[:1000])"
234222
]
235223
},
@@ -265,9 +253,9 @@ main
265253
"metadata": {},
266254
"outputs": [],
267255
"source": [
268-
"# Usa soup.find_all(\"a\") para buscar todos los elementos <a> del documento HTML, a hace referencia a los hipervínculos.\n",
256+
"# Find all elements with a certain tag\n",
269257
"a_tags = soup.find_all(\"a\")\n",
270-
"print(a_tags[:10])#Imprime los primeros 10 elementos de la lista."
258+
"print(a_tags[:10])"
271259
]
272260
},
273261
{
@@ -287,7 +275,6 @@ main
287275
},
288276
"outputs": [],
289277
"source": [
290-
"#Obtener todos los elementos <a> de la página y se imprime el primer enlace de cad lista.\n",
291278
"a_tags = soup.find_all(\"a\")\n",
292279
"a_tags_alt = soup(\"a\")\n",
293280
"print(a_tags[0])\n",
@@ -307,7 +294,7 @@ main
307294
"metadata": {},
308295
"outputs": [],
309296
"source": [
310-
"print(len(a_tags)) #Imprime el total de hipervínculos o enlaces que se encontraron en la página."
297+
"print(len(a_tags))"
311298
]
312299
},
313300
{
@@ -329,7 +316,7 @@ main
329316
},
330317
"outputs": [],
331318
"source": [
332-
"# Busca solo las etiquetas <a> que tengan la clase \"sidemenu\", y mestra los primeros 5 enlaces con la clase sidemenu.\n",
319+
"# Get only the 'a' tags in 'sidemenu' class\n",
333320
"side_menus = soup(\"a\", class_=\"sidemenu\")\n",
334321
"side_menus[:5]"
335322
]
@@ -351,7 +338,7 @@ main
351338
},
352339
"outputs": [],
353340
"source": [
354-
"# Se usa soup.select() para buscar elementos con sintaxis CSS y muestra los primeros 5 enlaces con clase sidemenu.\n",
341+
"# Get elements with \"a.sidemenu\" CSS Selector.\n",
355342
"selected = soup.select(\"a.sidemenu\")\n",
356343
"selected[:5]"
357344
]

0 commit comments

Comments
 (0)