← До списку лабораторних по Python
Повний опис / сценарій лабораторної:
Meta: навчитися витягувати структуровані дані зі сторінок HTML. Krok 1. Встановити requests і beautifulsoup4 у віртуальне середовище. Komandi: cd ~/python_lab1; source .venv/bin/activate; pip install requests beautifulsoup4 Krok 2. Створити файл src/app/soup52.py. Komandi: cd src; touch app/soup52.py Krok 3. Написати код який завантажує HTML з публічної сторінки. Krok 4. Створити обєкт BeautifulSoup і знайти усі посилання на сторінці. Krok 5. Вивести список URL і текстів посилань. Krok 6. Додати фільтрацію за доменом або префіксом шляху. Krok 7. Занотувати правила ввічливого скрапінгу, наприклад паузи між запитами і повага до robots.txt. Krok 8. Продумати як зберігати витягнуті дані у базі або файлі для подальшого аналізу. Krok 9. Додати обробку помилок HTTP і проблем з кодуванням. Krok 10. Mini zvit. Zavdannya: опиши приклади внутрішніх сторінок які тобі може бути корисно парсити.