Парсер сайта Whoscored.com

ZoomuaMM

Client
Регистрация
30.12.2010
Сообщения
8
Благодарностей
0
Баллы
1
Добрый день. Кто готов помочь с реализацией шаблона, просьба писать в личные сообщения с ориентировочной ценой/сроками.

Основная задача шаблона:

Собирать статистические и аналитические данные по предстоящему футбольному событию. Сохранять в удобном, пригодном для дальнейшего использования виде.

Принцип работы шаблона:

Я даю программе текстовый файл с ссылками для парсинга (или копирую/вставляю список ссылок в соответствующее поле во входных настройках шаблона). Ссылки в таком форма: *some-name*|*ссылка на страницу футбольного события*

Например:

milan-inter|http://whoscore.com/match/milan-inter-456456456
arsenal-everton|http://whoscore.com/match/arsenal-everton-456456456
real-barsa|http://whoscore.com/match/real-barsa-456456456

Приставка «milan-inter» далее должна использоваться во всех выходных файлах, чтобы я мог легко понять к какому футбольному событию относится та или иная таблица или текстовый файл, который шаблон будет выдавать в результате парсинга.

Например:
milan-inter|http://whoscore.com/match/milan-inter-456456456

В результате, после выполнения парсинга по ссылке все файлы имеют приставку milan-inter:

milan-inter_general-info.txt
milan-inter_head-to-head.xslx
milan-inter_betting.xslx
milan-inter_preview.xslx

Примечание 1. Оформлять все спаршенные данные в один файл или разбивать на несколько, пока не определился. Возможно, вы дадите какие рекомендации?

Примечание 2. Так же желательно, чтобы у шаблона был более-менее информативный лог. Который бы информировал, что ведём работу по такой-то ссылке, блок или таблица такая-то успешно спаршена или наоборот определённый блок с информацией или таблица отсутствуют и т.п.

Примечание 3. Я не планирую использовать этот шаблон чтобы парсить данные с Whoscored тысячами страниц в день. И на whoscored, вроде бы, нет какой-то продвинутой системы защиты от ботов и парсинга. Однако, было не плохо иметь возможность подключать прокси и работать в несколько потоков.

Примечание 4. Парсить нужно будет не "всё-всё", что есть на странице, а только часть таблиц и списков, они будут указаны в более детальном ТЗ.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)