Merge pull request #3 from anmerinoto/revert-2-Saskia_Guerrrero

anmerinoto · web-flow · commit 56459030b669 · 2025-08-23T12:17:49.000-05:00
Revert "Descripción del código"
diff --git a/lessons/02_web_scraping.ipynb b/lessons/02_web_scraping.ipynb
@@ -49,11 +49,6 @@
    "cell_type": "code",
    "execution_count": 1,
    "metadata": {},
-## Saskia_Guerrrero
-   "outputs": [],
-   "source": [
-    "%pip install requests # Instala la librería requests, que permite hacer peticiones HTTP, con ella puedes conectarte a páginas web y obtener su contenido."
-##
    "outputs": [
     {
      "name": "stdout",
@@ -72,18 +67,12 @@
     "# 🌐 La librería requests es necesaria para hacer solicitudes HTTP y descargar páginas web.\n",
     "# 🕸️ Esto es fundamental para hacer web scraping (extraer información de páginas web).\n",
     "%pip install requests  "
-main
    ]
   },
   {
    "cell_type": "code",
    "execution_count": null,
    "metadata": {},
-# Saskia_Guerrrero
-   "outputs": [],
-   "source": [
-    "%pip install beautifulsoup4 # Instala una librería para parsear HTML y XML, sirve para extraer información específica de una página web."
-
    "outputs": [
     {
      "name": "stdout",
@@ -115,7 +104,6 @@ main
     "# 🥣 La instrucción %pip install beautifulsoup4 sirve para instalar la librería Beautiful Soup 4 en tu entorno de Jupyter Notebook.\n",
     "# 🕸️ Beautiful Soup es esencial para analizar y extraer información de archivos HTML y XML, lo que facilita el web scraping.\n",
     "%pip install beautifulsoup4"
-main
    ]
   },
   {
@@ -147,7 +135,7 @@ main
     }
    ],
    "source": [
-    "%pip install lxml  # Parsers rápido y eficiente para manejar HTML y XML."
+    "%pip install lxml"
    ]
   },
   {
@@ -158,7 +146,7 @@ main
    },
    "outputs": [],
    "source": [
-    "# Importa las librerías necesarias para ejecutar el código.\n",
+    "# Import required libraries\n",
     "from bs4 import BeautifulSoup\n",
     "from datetime import datetime\n",
     "import requests\n",
@@ -202,11 +190,11 @@ main
    },
    "outputs": [],
    "source": [
-    "# Hace una solicitud HTTP de tipo GET a la página web.\n",
+    "# Make a GET request\n",
     "req = requests.get('http://www.ilga.gov/senate/default.asp')\n",
-    "# Se obtiene el contenido de la respuesta del servidor en formato de texto.\n",
+    "# Read the content of the server’s response\n",
     "src = req.text\n",
-    "# Se imprime solo los primeros 1000 caracteres del contenido.\n",
+    "# View some output\n",
     "print(src[:1000])"
    ]
   },
@@ -227,9 +215,9 @@ main
    "metadata": {},
    "outputs": [],
    "source": [
-    "# Se crea un objeto BeautifulSoup a partir de la variable src (que contiene el HTML obtenido con requests).\n",
+    "# Parse the response into an HTML tree\n",
     "soup = BeautifulSoup(src, 'lxml')\n",
-    "# Imprime de manera identada gracias a prettify los primeros 1000 caracteres.\n",
+    "# Take a look\n",
     "print(soup.prettify()[:1000])"
    ]
   },
@@ -265,9 +253,9 @@ main
    "metadata": {},
    "outputs": [],
    "source": [
-    "# Usa soup.find_all(\"a\") para buscar todos los elementos <a> del documento HTML, a hace referencia a los hipervínculos.\n",
+    "# Find all elements with a certain tag\n",
     "a_tags = soup.find_all(\"a\")\n",
-    "print(a_tags[:10])#Imprime los primeros 10 elementos de la lista."
+    "print(a_tags[:10])"
    ]
   },
   {
@@ -287,7 +275,6 @@ main
    },
    "outputs": [],
    "source": [
-    "#Obtener todos los elementos <a> de la página y se imprime el primer enlace de cad lista.\n",
     "a_tags = soup.find_all(\"a\")\n",
     "a_tags_alt = soup(\"a\")\n",
     "print(a_tags[0])\n",
@@ -307,7 +294,7 @@ main
    "metadata": {},
    "outputs": [],
    "source": [
-    "print(len(a_tags)) #Imprime el total de hipervínculos o enlaces que se encontraron en la página."
+    "print(len(a_tags))"
    ]
   },
   {
@@ -329,7 +316,7 @@ main
    },
    "outputs": [],
    "source": [
-    "# Busca solo las etiquetas <a> que tengan la clase \"sidemenu\", y mestra los primeros 5 enlaces con la clase sidemenu.\n",
+    "# Get only the 'a' tags in 'sidemenu' class\n",
     "side_menus = soup(\"a\", class_=\"sidemenu\")\n",
     "side_menus[:5]"
    ]
@@ -351,7 +338,7 @@ main
    },
    "outputs": [],
    "source": [
-    "# Se usa soup.select() para buscar elementos con sintaxis CSS y muestra los primeros 5 enlaces con clase sidemenu.\n",
+    "# Get elements with \"a.sidemenu\" CSS Selector.\n",
     "selected = soup.select(\"a.sidemenu\")\n",
     "selected[:5]"
    ]