Обработка html таблиц с Python и Selenium

Здравствуйте! В сегодняшней статье мы рассмотрим как распарсить HTML таблицу при помощи Python и Selenium webdriver. И прежде всего создадим html файл с примером таблицы.

<!DOCTYPE html> <html> <style> table, th, td { border:1px solid black; } </style> <body>


  <h2>A basic HTML table</h2>
  <table style="width:100%">
    <tr>
      <td>Язык</td>
      <td>Рейтинг</td>
    </tr>
    <tr>
      <td>Python</td>
      <td>10</td>
    </tr>
    <tr>
      <td>JavaScript</td>
      <td>6</td>
    </tr>
  </table>
  </body>
  </html>

Если все сделано правильно, то в браузере должна появиться таблица.

Далее скачиваем selenium web driver для Firefox. По адресу https://github.com/mozilla/geckodriver/releases/. Называется он geckodriver. Необходимо скачать архив и распаковать его.

# Импортируем модули драйвера import sys from selenium import webdriver from selenium.webdriver.common.by import By import time


  # В экземпляре класса передаем путь к exe файлу  вебдрайвера 
  driver = webdriver.Firefox(executable_path=r'путь_к_драйверу/geckodriver.exe')
  # ссылка на html таблицу,
  # впереди обязательно прописываем file:///
  link2 = "file:///C:/Users/УЗИ/Desktop/Таблица.html"
  print(link2)
  try:
    # открываем ссылку в браузере
    driver.get(link2)
    # находим количество строк в таблице
    rows = len(driver.find_elements(by=By.XPATH, value = '/html/body/table/tbody/tr'))
    # подсчет количества столбцов 
    cols = len(driver.find_elements(by=By.XPATH, value = '/html/body/table/tbody/tr[1]/td'))
    print(rows)
    print(cols)
    # итерация по строкам и столбцам таблицы
    for r in range(2, rows+1):
      for c in range(1, cols+1):
          value = driver.find_element(by=By.XPATH, value = '/html/body/table/tbody/tr['+str(r)+']/td['+str(c)+']').text
          print(value, end = '           n')
  finally:  
    time.sleep(30)
    # обязательно  прописываем выход из вебдрайвера
    driver.quit()
  # вывод
  /*
  Python
  10
  JavaScript
  6
  */

В нашем примере используются локаторы типа /html/body/table/tbody/tr. Для его получения, необходимо сперва зайти в инструменты разработчика, выбрать элемент из ячейки таблицы и правой кнопкой мыши скопировать XPATH.

По ним вебдрайвер находит искомые элементы. Метод find_elements находит все элементы с данным локатором и возвращает список. Далее при помощи метода len вычисляется длина списка.

Для парсинга таблицы, вычисленные значения , передаются в цикл for, где они подставляются в локатор следующим образом tr['+str(r)+']/td['+str(c)+']. Методом text получаем текст содержащийся по данной ячейке таблицы.

Таким образом, последовательно, можно пройтись по достаточно крупной таблице с какого-либо сайта.

Источник

Обработка html таблиц с Python и Selenium

Похожее

Основы PowerShell

Отображение данных JSON с помощью Flask в HTML

Создание строки запроса из объекта в JavaScript

Добавить комментарий Отменить ответ

Обновление алгоритма Google: мнение специалистов о March 2024 Core Update и Spam Update

Контент план рассылок: составляем на примерах | Практичный email [CRM] маркетинг

Контент план рассылок: составляем на примерах | Практичный email [CRM] маркетинг

LinksSape — как платформа линкбилдинга ускоряет продвижение сайтов

Основы PowerShell

Рубрики

О сайте

Похожее

Больше историй

Добавить комментарий Отменить ответ

Возможно, вы пропустили

Рубрики

Метки

О сайте