разбора HTML из cricinfo показателей | VPROS.ru

разбора HTML из cricinfo показателей

Цель

Я ищу, чтобы наскрести 20/20 крикет показателей данных от Cricinfo сайт, в идеале в виде CSV для анализа данных в Excel

В качестве примера нынешний Австралийский большой bash 2011/12 оценочные листы доступны с

Фон

Я являюсь опытным в помощью VBA (либо автоматизации IE или через XMLHTTP а потом с помощью регулярных выражений) для сбора данных с сайтов, т. е. извлечения значений из HTML тд и ТР

В тот же вопрос, комментарий был размещен предполагая разбора HTML – что бы я не наткнулся раньше – так я тут посмотрел на вопросы, такие как регулярное выражение матч открытые теги, кроме XHTML-код автономных теги

Запрос

В то время как я могу написать регулярное выражение для синтаксического анализа данных, крикет ниже я хотел бы советы о том, как я могу эффективно получить эти результаты с разбора HTML.

Пожалуйста, имейте в виду, что мои предпочтения-это повторяемые формате CSV, содержащий:

  • Дата/название матч
  • Команда 1 Наименование
  • на выходе должен сбрасывать до 11 записей для группы 1 (бланк записи, где игроки не сомкнул, т. е. “не Летучая мышь”)
  • 2 команда название
  • на выходе должен сбрасывать до 11 записей для команды 2 (бланк записи, где игроки еще не отбитый)

Нирвана для меня было бы решение, которое я мог бы развернуть с помощью VBA или VBScript, так что я мог полностью автоматизировать мой анализ, но я полагаю, мне придется использовать отдельный инструмент для разбора HTML-код.

Образец ссылки на сайт и данные, которые будут извлечены

cricinfo scorecard source date

One Reply to “разбора HTML из cricinfo показателей”

  1. Regex-это не полное решение для парсинга HTML, потому что это не гарантируется, чтобы быть регулярными.

    Вы должны использовать HtmlAgilityPack для запроса HTML-код. Это позволит вам использовать CSS-селекторы для запроса в HTML подобно тому, как вы делаете это с помощью jQuery.

Comments are closed.