← До фільтрів та технологій

← До списку лабораторних по Python

Python Лабораторна 52: Витягування даних через BeautifulSoup

Технологія: Python

Номер лабораторної: 52 · Рівень: middle

Тема: Парсинг HTML сторінок

Повний опис / сценарій лабораторної:

Meta: навчитися витягувати структуровані дані зі сторінок HTML.



Krok 1. Встановити requests і beautifulsoup4 у віртуальне середовище.

Komandi: cd ~/python_lab1; source .venv/bin/activate; pip install requests beautifulsoup4



Krok 2. Створити файл src/app/soup52.py.

Komandi: cd src; touch app/soup52.py



Krok 3. Написати код який завантажує HTML з публічної сторінки.



Krok 4. Створити обєкт BeautifulSoup і знайти усі посилання на сторінці.



Krok 5. Вивести список URL і текстів посилань.



Krok 6. Додати фільтрацію за доменом або префіксом шляху.



Krok 7. Занотувати правила ввічливого скрапінгу, наприклад паузи між запитами і повага до robots.txt.



Krok 8. Продумати як зберігати витягнуті дані у базі або файлі для подальшого аналізу.



Krok 9. Додати обробку помилок HTTP і проблем з кодуванням.



Krok 10. Mini zvit.

Zavdannya: опиши приклади внутрішніх сторінок які тобі може бути корисно парсити.