JavaScript отключен. Для полноценно использования нашего сайта, пожалуйста, включите JavaScript в своем браузере.

парсер контента

1 место Универсальный экстрактор™ контента (основной статьи страницы)

Пару месяцев назад я публиковал в своём блоге видео с конференции, где рассказывалось какие есть сложности в реализации универсального парсера контента (основной статьи страницы без мусора: без меню, футера и тд) из html-кода. В комментариях к той записи мы обсудили, что хотелось бы использовать...
- Lord_Alfred
- Тема
- 06.03.2020
- Ответы: 218
- Раздел: Завершённые конкурсы шаблонов
4 место Быстрый парсер RU + ENG текстового контента на Get-запросах

Область применения: Делать потом «сайты\сателлиты\дорвеи\странички в соцсетях» на «копипасте\мешанке\генеренке\переводе» на основе этой текстовки. Алгоритм работы: 1. Шаблон берет случайную строку из файла-списка «\Input\Useragents.txt», если файла нет, то генерирует значение. 2. Берется...
- orka13
- Тема
- 20.02.2018
- Ответы: 42
- Раздел: Завершённые конкурсы статей
Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)

Сейчас имею свой парсер на регулярках + HtmlDecode (хотя эту связку лучше на HtmlAgilityPack заменить). Но он просто весь текст вытягивает со страницы. А хотелось бы как-то умно достать только главный блок с телом статьи. Пока у меня такие варианты: 1. В настройках указал брать только явные...
- orka13
- Тема
- 10.12.2017
- Ответы: 24
- Раздел: Вопросы и обсуждение
A
Нужен парсер

Добрый день. Нужен парсер данных (. ID В.К., почт адресов и аккаунтов инстаграмм) с сайта айтао - https://ru.itao.com. У меня уже есть парсер постов, соответственно парсер данных должен: 1 - находить автора поста 2 - заходить на страничку и парсить данные в открытом доступе Для облегчения...
- AMR
- Тема
- 14.02.2017
- Ответы: 2
- Раздел: Поиск и предложение услуг по созданию шаблонов

Верх Низ

парсер контента

1 место Универсальный экстрактор™ контента (основной статьи страницы)

4 место Быстрый парсер RU + ENG текстового контента на Get-запросах

Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)

Нужен парсер