парсер контента

  1. Lord_Alfred

    1 место  Универсальный экстрактор™ контента (основной статьи страницы)

    Пару месяцев назад я публиковал в своём блоге видео с конференции, где рассказывалось какие есть сложности в реализации универсального парсера контента (основной статьи страницы без мусора: без меню, футера и тд) из html-кода. В комментариях к той записи мы обсудили, что хотелось бы использовать...
  2. orka13

    4 место  Быстрый парсер RU + ENG текстового контента на Get-запросах

    Область применения: Делать потом «сайты\сателлиты\дорвеи\странички в соцсетях» на «копипасте\мешанке\генеренке\переводе» на основе этой текстовки. Алгоритм работы: 1. Шаблон берет случайную строку из файла-списка «\Input\Useragents.txt», если файла нет, то генерирует значение. 2. Берется...
  3. orka13

    Ищу алгоритм парсинга текста статьи HTML-страницы (без меню, футеров и прочего мусора)

    Сейчас имею свой парсер на регулярках + HtmlDecode (хотя эту связку лучше на HtmlAgilityPack заменить). Но он просто весь текст вытягивает со страницы. А хотелось бы как-то умно достать только главный блок с телом статьи. Пока у меня такие варианты: 1. В настройках указал брать только явные...
  4. A

    Нужен парсер

    Добрый день. Нужен парсер данных (. ID В.К., почт адресов и аккаунтов инстаграмм) с сайта айтао - https://ru.itao.com. У меня уже есть парсер постов, соответственно парсер данных должен: 1 - находить автора поста 2 - заходить на страничку и парсить данные в открытом доступе Для облегчения...