🧠 ProInsight - Email Insight Classifier

This project applies Machine Learning and Natural Language Processing (NLP) techniques to analyze and classify corporate emails from the Enron Email Dataset.
It extracts semantic patterns, relationships, and insights from large-scale email communication data to help visualize and interpret professional correspondence.

🌐 Live Links

Frontend (Website): https://proinsight-frontend.vercel.app
Backend API: https://proinsight-backend.onrender.com

📂 Dataset

Source: Enron Email Dataset (Kaggle)

Cleaning Process:
Raw email data was parsed using Python’s email module to extract:

Message-ID
Date
From
To
Subject
Body

The cleaned dataset was saved as emails_clean.csv for downstream NLP and ML analysis.

⚙️ Preprocessing & Feature Engineering

Data Cleaning: Removal of stopwords, punctuation, and non-ASCII characters.
Tokenization & Lemmatization: Performed using SpaCy.
Feature Extraction: TF-IDF vectorization and word frequency analysis.
Network Analysis: Constructed sender–receiver communication graphs using NetworkX.

🧩 Machine Learning Pipeline

Data Parsing & Cleaning — Extracts and structures raw email data.
Exploratory Data Analysis (EDA) — Analyzes communication frequency, sentiment, and relationships.
Feature Engineering — Uses TF-IDF and embeddings for semantic representation.
Classification / Clustering — Identifies thematic or behavioral patterns in email content.
Visualization — Builds network graphs using NetworkX and Matplotlib.

🤖 Gemini API Integration

The project integrates Google’s Gemini API for:

Text summarization
Semantic similarity comparison
Context-aware keyword extraction
Insight generation on communication trends

🧰 Tech Stack

Languages & Libraries: Python, Pandas, NumPy
NLP Tools: SpaCy, TextBlob
ML Framework: scikit-learn
Visualization: Matplotlib, NetworkX
API: Gemini API
Frontend: React (Vite + Tailwind + shadcn/ui)
Backend: FastAPI (deployed on Render)

🚀 Running the Project

1️⃣ Clone the repository

git clone https://github.com/nikitagrover19/ProInsight-ML.git
cd ProInsight-ML
cd scripts

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
models		models
scripts		scripts
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🧠 ProInsight - Email Insight Classifier

🌐 Live Links

📂 Dataset

⚙️ Preprocessing & Feature Engineering

🧩 Machine Learning Pipeline

🤖 Gemini API Integration

🧰 Tech Stack

🚀 Running the Project

1️⃣ Clone the repository

About

Uh oh!

Releases

Packages

Languages

nikitagrover19/ProInsight-ML

Folders and files

Latest commit

History

Repository files navigation

🧠 ProInsight - Email Insight Classifier

🌐 Live Links

📂 Dataset

⚙️ Preprocessing & Feature Engineering

🧩 Machine Learning Pipeline

🤖 Gemini API Integration

🧰 Tech Stack

🚀 Running the Project

1️⃣ Clone the repository

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages