Add support for scraping products from Newegg (#154)

* Add support for scraping products from Newegg * Add Newegg.com and Newegg.ca to supported websites in README
Crinibus · Apr 9, 2022 · 43e96ee · 43e96ee
1 parent b5a95e8
commit 43e96ee
Show file tree

Hide file tree

Showing 3 changed files with 14 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -128,6 +128,7 @@ This scraper can (so far) scrape prices on products from:
 - [MM-Vision.dk](https://www.mm-vision.dk/)
 - [Coolshop.dk](https://www.coolshop.dk/)
 - [Sharkgaming.dk](https://www.sharkgaming.dk/)
+- [Newegg.com](https://www.newegg.com/) & [Newegg.ca](https://www.newegg.ca/)
 
 ****OBS these Amazon domains should work: [.com](https://www.amazon.com/), [.ca](https://www.amazon.ca/), [.es](https://www.amazon.es/), [.fr](https://www.amazon.fr/), [.de](https://www.amazon.de/) and [.it](https://www.amazon.it/)<br/>
 The listed Amazon domains is from my quick testing with one or two products from each domain.<br/>

diff --git a/scraper/domains.py b/scraper/domains.py
@@ -215,6 +215,17 @@ def sharkgaming(soup: BeautifulSoup) -> Info:
     return Info(product_user_name, price, currency, id)
 
 
+def newegg(soup: BeautifulSoup) -> Info:
+    script_data_raw = soup.find_all("script", type="application/ld+json")[2].text
+    product_data = json.loads(script_data_raw)
+    name = product_data.get("name")
+    product_user_name = Format.get_user_product_name(name)
+    price = float(product_data.get("offers").get("price"))
+    currency = product_data.get("offers").get("priceCurrency")
+    id = product_data.get("sku")
+    return Info(product_user_name, price, currency, id)
+
+
 domains = {
     "komplett": komplett,
     "proshop": proshop,
@@ -229,4 +240,5 @@ def sharkgaming(soup: BeautifulSoup) -> Info:
     "mm-vision": mmvision,
     "coolshop": coolshop,
     "sharkgaming": sharkgaming,
+    "newegg": newegg,
 }
diff --git a/scraper/format.py b/scraper/format.py
@@ -30,6 +30,7 @@ def shorten_url(website_name: str, url: str, info: Info) -> str:
             "mmvision": url,
             "coolshop": f'https://www.coolshop.dk/produkt/{url.split("/")[-2]}/',
             "sharkgaming": url,
+            "newegg": f"https://www.newegg.com/p/{info.id}",
         }
 
         if website_name == "ebay":