Тестовое задание для отбора на Летнюю ИТ-школу КРОК по разработке

Условие задания

Однажды теплым летним вечером вас посетила идея разработать свое расширение для браузера для построения ссылочного графа. Что это означает на практике — ваше расширение активируется на какой-либо web-странице сайта, определяет список уникальных внешних ссылок, после чего повторяет алгоритм для каждой ссылки. Максимальная глубина поиска, визуализация собранных данных и прочие вопросы вы сочли вторичными, а начать решено было с малого — с обходчика страниц, который бы находил уникальные ссылки.

В процессе проектирования вы решили немного упростить ваш mvp и в итоге поставили себе задачу следующим образом: реализовать поиск всех уникальных ресурсов (доменов) в рамках страницы, на которые есть ссылки. При этом, формулируя задачу, вы сделали следующие допущения:

Доменом считается запись вида example.com;
Поддомен, например, sub.example.com, считается отдельным ресурсом;
Протокол (при наличии) не имеет значения.

Требования к реализации:

Реализация должна содержать, как минимум, одну процедуру (функцию/метод), отвечающую за поиск уникальных ресурсов, и должна быть описана в readme.md в соответствии с чек-листом;
В качестве входных данных программа использует реальный html-файл (page.html) , считав который, начинает выполнять поиск;
Процедура (функция/метод) поиска должна возвращать строку в формате json следующего формата:
- {«sites»: [«mail.ru», «rbc.ru», «ria.ru»]}
Найденные в соответствии с условием задачи домены должны выводиться в нижнем регистре без указания протокола и «www» в алфавитном порядке.

Автор решения

Бархатова Наталья Александровна

Описание реализации

Для парсинга .html я использовала библиотеку Jsoup - https://mvnrepository.com/artifact/org.jsoup/jsoup/1.17.2

Для преобразования в JSON-строку я использовала библиотеку json для java - https://mvnrepository.com/artifact/org.json/json/20231013

Для подтягивания зависимостей использовала Maven

Программа работает следующим образом:

Пользователь вводит через консоль название файла и его расширение. Если ввод не соответсвует требованиям, запрос совершается ещё раз. (До успешного результата)
Через Jsoup парсится html-файл и находит все теги , далее из каждого тега извлекается href.
href проверяется на валидность, в случае успеха переходим к извлечению домена.
Если домен ранее был обнаружен нашим поисковиком, мы его не рассматриваем и пропускаем.
Сортируем домены.
Полученные домены преобразуем в JSON строку.

Инструкция по сборке и запуску решения

Перед запуском программы пользователю необходимо загрузить .html в директорию src/main/resources/.

В качестве тестовой страницы в этой папке уже лежит example.html с html-кодом https://www.croc.ru/.

Соберите проект с помощью Maven. (mvn clean, mvn compile, mvn exec:java)

На этом всё

⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⢀⡴⠒⠦⣄⣠⠶⠞⠳⣆⠀⠀⠀⠀
⠀⠀⠀⣴⠛⠛⠛⠲⢦⣤⡴⠶⠶⢶⠏⠀⢀⣄⣹⣇⡀⠀⠀⣻⡀⠀⠀⠀
⠀⠀⠀⡿⠀⠀⠀⠀⠀⠀⠀⠀⠀⢸⠂⠀⢿⣼⠋⠀⠉⣿⣍⠉⠉⡆⠀⠀
⠀⠀⠀⢿⡤⠀⠀⠀⠀⠀⠀⠀⠀⠈⠧⠤⠤⠿⢦⣀⣤⠿⠼⠀⣰⠃⠀⠀
⠀⠀⠀⡾⠁⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠈⠳⠤⠶⢿⡀⠀⠀
⠀⠀⢸⡇⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⣠⣼⡧⠤⠆
⣠⣤⢼⡧⢤⠀⠀⠀⢠⣦⠀⠀⠀⠀⠀⠀⠀⠀⠀⣾⡇⠀⠀⠀⣤⣧⣄⡀
⠀⠀⢀⡿⠉⠹⡄⠀⠈⠋⠀⠀⠀⣴⠒⡆⠀⠀⠀⠀⠀⠀⠀⣀⣼⠁⠀⠀
⢠⡞⠉⠛⠀⠀⠹⠶⠶⣄⠀⠀⠀⠈⠉⠀⠀⠀⠀⠀⠀⠀⣀⠾⠉⠙⠒⠀
⠀⠳⢤⣀⠀⠀⢠⠖⠒⠈⢳⣀⠀⠀⢀⣀⣀⣀⣤⠤⠖⠛⠁⠀⠀⠀⠀⠀
⠀⠀⠀⢹⡀⠀⠘⠲⠖⠃⣼⠋⠉⠁⠉⠈⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠛⠦⣤⣤⠴⠞⠁⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
src/main		src/main
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Тестовое задание для отбора на Летнюю ИТ-школу КРОК по разработке

Условие задания

Автор решения

Описание реализации

Инструкция по сборке и запуску решения

About

Releases

Packages

Languages

barkhatnat/school2024-test-task3

Folders and files

Latest commit

History

Repository files navigation

Тестовое задание для отбора на Летнюю ИТ-школу КРОК по разработке

Условие задания

Автор решения

Описание реализации

Инструкция по сборке и запуску решения

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages