1 место Универсальный экстрактор™ контента (основной статьи страницы)

jcknick · 26.03.2020

"Донор" заковыристый, наверное :-)

Не только простые посты.

iamnm · 02.04.2020

Очень и очень крутая вещь, работает как надо :ay:

intagens · 04.04.2020

@Lord_Alfred подскажи, а вот такие элементы шаблон не вычищает?

вот что получаем в тексте на выходе

KolkaPetkinSyn · 05.04.2020

У меня шаблоны Зены лежат на отдельном диске(f:\) в cmd не получается зайти в папку на диске F. Это можно обойти или шаблон обязательно должен лежать на диске С:?

up:
Перенёс папку на диск С, но теперь при попытке установить зависимость получаю ошибку:
can't load package: package github.com/urfave/cli: no Go files in C:\Users\serov\go\src\github.com\urfave\cli

программы установил.

KolkaPetkinSyn · 05.04.2020

Lord_Alfred сказал(а):
2. Если не поможет, то покажи:

Bash:

echo %PATH% echo %GOPATH%

KolkaPetkinSyn · 06.04.2020

Lord_Alfred сказал(а):
Всё ок по этим командам (там прописаны пути до go).

Попробуй через VPN установить зависимости. Вдруг у тебя github заблокирован провайдером.

VPN мне помог. . Первое зависимость не устанавливается. Вторая зависимость проходит

санчил · 06.04.2020

приветствую!

KolkaPetkinSyn · 06.04.2020

Lord_Alfred сказал(а):
Попробуй очистить папку C:\Users\serov\go\src\github и установить обе зависимости через vpn заново

Дружище, ты гений! Огромное спасибо!

Sokol · 12.04.2020

Lord_Alfred сказал(а):
Получается что не вычищает

Нет идеального решения.

Sokol · 12.04.2020

Спасибо. Я и так про них знаю.

karab1n · 13.04.2020

Подскажите, куда прописывать параметр url?

udder · 13.04.2020

Может кто - то прикрутить возможность парсить статьи из карты сайта сайта?

Mysurik · 18.04.2020

День добрый! А может кто то наглядно показать от А до Я как это чудо настроить не разбирающимся? Я вот лично не чего не понял, я не программист а по юзать такую прелесть хочется.

Astraport · 18.04.2020

Mysurik сказал(а):
А может кто то наглядно показать от А до Я как это чудо настроить не разбирающимся?

Статья и есть от А до Я. У вас 2 пути - или становиться хотя бы немного программистом или искать другие варианты извлечения текстовки из статей - их тоже не мало.

Mysurik · 18.04.2020

Astraport сказал(а):
Статья и есть от А до Я. У вас 2 пути - или становиться хотя бы немного программистом или искать другие варианты извлечения текстовки из статей - их тоже не мало.

Понял отстал. Извините за глупый вопрос.

Astraport · 18.04.2020

Mysurik сказал(а):
Понял отстал. Извините за глупый вопрос.

Если вам нужен просто удобный и не сложный инструмент для парсинга и извлечения контента, статей, то возьмите Х-парсер (реф) нашего разработчика, который используется тысячами вебмастеров.

Mysurik · 18.04.2020

Astraport сказал(а):
Если вам нужен просто удобный и не сложный инструмент для парсинга и извлечения контента, статей, то возьмите Х-парсер (реф) нашего разработчика, который используется тысячами вебмастеров.

Спасибо но я воздержусь. Удачи вам !

jcknick · 30.04.2020

Вернулся после пары десятка прогонов :-)

Отличная штука - охотиться за текстами с 90% точностью без сложных страниц, но (как обычно, собсна)... Как настроить так, чтобы заголовки тянулись тоже - в какую-нибудь переменную? Я подкрутил, чтобы результаты в таблицу тянулись, но без заголовков, которые обычно "h1", приходится дополнительно прогонять список урлов... с дополнительной html чисткой - процесс почти удваивается в продолжительности :/

Mysurik · 30.04.2020

Вроде не подписывался на эту тему. Зачем мне уведомления слать на почту не понимаю :au:

daVinchi · 30.04.2020

jcknick сказал(а):
Как настроить так, чтобы заголовки тянулись тоже - в какую-нибудь переменную?

Вариант 1. Добвавить в readability_cli.go (и заново перекомпилировать!):

Код:

dstTxtFile.WriteString("<h1>")
dstTxtFile.WriteString(article.Title)
dstTxtFile.WriteString("</h1>\n")

Вариант 2. В подпроекте readability.xmlz в переменную response_body сохраняется сохраняется "тело" страницы. Оттуда и можно вытащить заголовок h1, например регуляркой.

Mysurik · 30.04.2020

Как отключить уведомления? :ah:

Mysurik · 30.04.2020

Вот я валенок то тупорылый :an:

я же ее отслеживать поставил, когда голосовал. Админы удалите пожалуйста мою писанину с данной темы. И ты автор извини что натоптал тут.

1 место Универсальный экстрактор™ контента (основной статьи страницы)

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)