Добрый день. Нужно много(несколько десятков) однотипных, простых парсеров.
Парсить сайты такого типа:
Ориентировочное ТЗ:
Вариант 1 - бот получает ссылку на конкретную новость и парсит тело статьи + ссылку на картинку.
Примеры новостей:
Вариант 2 - бот получает ключевой запрос(допустим "Valentine's Day"), вбивает его в поиск на тех же сайтах и берет(как в первом варианте) сегодняшнюю статью с этим ключем(если статья есть).
По сути, это, даже, не написание парсеров, а поиск 3-5 путей XPath(+ возможно, одна регулярка для удаления мусора из статьи) для каждого сайта.
Все предложения прошу писать в личку.
Парсить сайты такого типа:
Latest breaking news available as free video on demand | Euronews
Latest breaking news available as free video on demand. Stay informed on European and world news about economy, politics, diplomacy… with Euronews.
www.euronews.com
Newsweek - News, Analysis, Politics, Business, Technology
Newsweek provides in-depth analysis, news and opinion about international issues, technology, business, culture and politics.
www.newsweek.com
Ориентировочное ТЗ:
Вариант 1 - бот получает ссылку на конкретную новость и парсит тело статьи + ссылку на картинку.
Примеры новостей:
Zuckerberg tells Europe: regulate social media or 'authoritarian' China will set the rules | Euronews
Facebook's Mark Zuckerberg wants Europe to regulate social media on political advertising and privacy — or risk losing ground to “authoritarian” rules from China.
www.euronews.com
New Survey Finds Gun Policy Low Priority for Most Americans
Gun policy earns the starkest statistical divide of any of the 18 policy issues when broken down along gender lines.
www.newsweek.com
Вариант 2 - бот получает ключевой запрос(допустим "Valentine's Day"), вбивает его в поиск на тех же сайтах и берет(как в первом варианте) сегодняшнюю статью с этим ключем(если статья есть).
По сути, это, даже, не написание парсеров, а поиск 3-5 путей XPath(+ возможно, одна регулярка для удаления мусора из статьи) для каждого сайта.
Все предложения прошу писать в личку.