Repositorio que contiene los materiales didácticos de la parte práctica del Curso de BBDD Vectoriales en la plataforma OpenWebinars.
- Clona este repositorio.
- Para cada bloque, cambia al directorio correspondiente, y sigue las instrucciones de cada README.md.
NOTA. El primer bloque, Conoce tu hardware, contiene distintos scripts de bash. En caso de que tu sistema operativo sea Windows o Mac, puede que tengas que adaptar dichos scripts para tu sistema operativo.
- Napkin-Math - Repositorio con cifras de latencia para hacer cálculos rápidos
- Usearch - Molecules - Embeddings de 7000 millones de moléculas para búsqueda rápida
- RAFT - Libreria desarrollada por NVIDIA Rapids para búsqueda vectorial aprovechando su arquitectura de CUDA cores
- ZLUDA - Librería desarrollada para poder ejecutar programas BASADOS En CUDA en hardware AMD
- LLMLingua - Prompt compression
- Applied-ml - Repositorio con muchos ejemplos de cómo las compañías aplican ML
- usearch-images - Repositorio del proyecto de ejemplo para búsqeuda de imágenes a partir de texto
- Repositorio del proyecto Justicio
- Visualización de latencias
- The Landscape of Biomedical Research - Visualización de 21 millones de papers médicos
- History of Databases - CMU - Lección de Andy Pavlo de la Universidad de Carnegie Mellon
- 8 Key Data Structures That Power Modern Databases - vídeo explicativo sobre las estructuras de datos más usadas en las bbdd modernas
- IA y Modelos del Lenguaje, retos y oportunidades con Elena González-Blanco @Microsoft - Charla sobre NLP en Español
- Why AI Is Tech's latest Hoax - Vídeo crítico sobre el Hype generado alrededor de la IA
- AWS re:Invent 2023 - How to build generative AI–powered American Sign Language avatars
- Pero, ¿qué es un GPT? Introducción visual a los Transformadores - Explicación visual elaborada por @3BlueBrown de cómo funciona un GPT
- Tómate la PastiLLIA ante la fiebre de la IA y los LLMs - Charla impartida por Jorge Barrachina sobre LLM's e IA's
- Has Generative AI Already Peaked? - Computerphile - Charla divulgativa sobre IA generativa
- CMU Database Group ML-DB Qdrant - Segmento del vídeo sobre mejoras en el algoritmo de HNSW
- Sentence Transformers and Embedding Evaluation - Nils Reimers - Talking Language AI Ep#3 - Charla sobre transformers y evaluación de embeddings
- BM25 : The Most Important Text Metric in Data Science - Charla sobre el algoritmo BM25
- Vector Search and Databases at Scale - Ashot Vardanian - Charla sobre optimizaciones en bases de datos de vectores
- Charla sobre Colossus - Charla sobre Colossus, mega computador de la Segunda Guerra Mundial
- CMU Database Group Vectorized Query Execution - Charla sobre técnicas de Vectorización en BBDD
- Let's build the GPT Tokenizer - Charla sobre cómo implementar un tokenizador
- ML->DB CMU Database Group - Seminario de la CMU sobre distintas bases de datos
- Is science code bad? - Charla sobre los incentivos en la investigación científica
- Designing the fastest ACID Key-Value Store / Ashot Vardanian (Unum cloud)
- RocksDB Meetup Diciembre 2023 - Charla sobre escenarios en los que RocksDB falla
- Exploring the privacy-preserving properties of word embeddings
- VectorHub - Hub de recursos sobre bases de datos de vectores
- How to choose the right embedding Model for you - Guía para escoger el modelo de embeddings adecuado
- Similarity Search - Serie de artículos sobre búsquedas por similaridad
- Data Agents - LLamaIndex
- A deep dive into the TileDB data format & storage engine - Charla sobre TileDB
- Efficient Estimation of Word Representations in Vector Space - Paper Word2Vec, pionero en el campo del PLN
- La maldición de la dimensionalidad - Paper sobre la maldición de la dimensionalidad
- Latent Diversity in Human Concepts - Paper sobre la diversidad latente en conceptos humanos
- How to choose the right embedding for you - Guía para escoger el modelo de embedding adecuado
- Text Embeddings: Comprehensive Guide - Guía sobre la evolución de los embeddings de texto
- "A Comparison Study on Similarity and Dissimilarity Measures in Clustering Continuous Data" - Paper sobre medidas de similaridad y disimilaridad en datos continuos
- 17 types of similarity and dissimilarity measures used in data science - Post sobre métricas de similaridad en ciencia de datos
- Similarity Search, Part 1: kNN & Inverted File Index - Artículo sobre búsquedas por similaridad
- When to Use Each Measure - Recomendaciones de uso de métricas de similaridad
- Big-ANN Benchmark - Resultados de competición de algoritmos ANN
- Not all Indexes are created equal - Diferencias entre índices en BBDD de vectores
- Similarity Search - Part 4 - HNSW - Explicación del índice HNSW
- Is Cosine-Similarity of Embeddings Really About Similarity? - Paper sobre la idoneidad del coseno como métrica de similaridad
- RELATIVE REPRESENTATIONS ENABLE ZERO-SHOT LATENT SPACE COMMUNICATION - Paper sobre representaciones relativas en el espacio vectorial
- When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards - Paper crítico con los sistemas de evaluación de benchmarks
- Lost in the Middle: How Language Models Use Long Contexts - Paper sobre los problemas de los LLMs con textos largos
- BM25 : The Most Important Text Metric in Data Science - Charla sobre el algoritmo BM25
- Flynn's Taxonomy - Taxonomía de Flynn
- The tale of two MS MARCO - and their unfair comparisons - Paper sobre inconsistencias en el dataset de prueba MSMARCO
- Arquitecturas RAG Avanzadas - Eduardo Ordax - Diagramas de arquitecturas RAG Avanzadas
- Demistifying NDGG - Artículo explicativo de la métrica NDGG
- Prompt injection series - Serie de artículos sobre prompt injection
- Exploring the privacy-preserving properties of word embeddings - Paper sobre la privacidad de los embeddings de texto
- A Comparison Study on Similarity and Dissimilarity Measures in Clustering Continuous Data - Estudio comparativo de medidas de similaridad y disimilaridad
- Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard - Paper sobre el benchmark BEIR
- Similarity Search, Part 2: Product Quantization - Artículo sobre la técnica de quantización
- Beware Tunnel Vision in AI Retrieval - Artículo crítico con el Hype de las bases de datos vectoriales
- HugginFace - Embedding Quantization - Artículo sobre quantización de embeddings
- TLDR legal - Licencias de software explicadas de forma sencilla
- Dewitt Clause - Cláusula en términos y condiciones que impide benchmarking
- Same Stats, Different Graphs - CHI 2017 - Paper sobre la variabilidad de representaciones gráficas con los mismos datos estadísticos
- An in-depth look at Google’s first Tensor Processing Unit (TPU) 2017 - Artículo sobre la arquitectura de las primeras TPU's de Google
- AMD's ROCM 6.1.0 Compute Units - Documentación oficial de AMD sobre los cores
- NVIDIA CUDA Warp primitives
- SciPy distances up to 200x faster with AVX-512 & SVE - Artículo sobre la mejora de rendimiento en SciPy
- Vector indexing roadmaps to search - Artículo sobre optimización de índices en búsqueda vectorial
- Big-ANN Benchmark - Tablero de resultados de competición de algoritmos ANN
- ANN-Benchmark
- VectorDBBench
- BEIR benchmark
- How to choose the right embedding Model for you
- Lost in the Middle: How Language Models Use Long Contexts
- Similarity Search
- llm-price - Portal para comparar precios por tokens de los LLM's hosteados
- Unum Cloud
- DoorDash Engineering Blog