Собрать email с сайтов определенной тематики

Eugenebeon · 23 Июл 2017

Помогите создать пресет под задачу:
Собрать email с сайтов определенной тематики, например - автомобильные сайты.

Forbidden · 23 Июл 2017

Добрый день, поддержка осуществляется только для владельцев лицензии, перелогиньтесь

Eugenebeon · 23 Июл 2017

Теперь осуществляется ?

Support Денис · 24 Июл 2017

Здравствуйте!
Решить описанную вами задачу возможно двумя пресетами.
В первом пресете используем парсер

SE::Google(можно и

SE::Yandex), для того чтобы собрать список сайтов по определённому запросу.

Вторым пресетом собираем email с полученных сайтов используя

HTML::EmailExtractor, используя в
качестве запросов файл результат работы первого.

eJztVU2P2jAQ/SvI4rCVgCWB1ba50RW0XdGFLuyJosoiE+SuE6f+oKCI/96x8wld
1MMe2kOlyLLnzbx5Hs8oGdFUPau5BAVakWCVkdTtSUDmVCoYx5TxkdGCdEhqDdJ6
rchiHAQfhNhyQCCEiBquSScj+pACxoodSMlCC7IQz6kU+4MELRkotO0oN9Zt0CfH
y0Fb3nB9fCLH9bpDUB2mUhMhY2pVtlOvV0iuwAXdwVIgGDGnr4zB0wONLVs7pBos
2osc0dWbnt5bBhqGTDORUJ5nsLetsz4l7IdTk9h64NbeZyJFjCYNjsAaD6W6FWm7
M0EK42K/5DEkiChX0CEKpU6wxBCeI0yDpFrIWWr1oD0jIhlxPoUd8NrN8b83jIf4
NKMIgz4VgS+7zH7jOFbXa6bCt/gpUUPtFIqp2JZ3fwZIq2o8WEssJFQEWhqoaLG7
Ukjsi9ZvMUpr04m+k3qfGjciidh2VnRJ6WmSJbbwLLkTccrBCj7rXB9TGAWPdROM
VFFse6jEnhPduXRIV7U30UJwdb/IZaeSYY/dVH2A1q+mPxy8dWto16Hv9jdu36/t
hcXvusPGrTk8aOxvm3StBuA3uKHhmqORQxuWoXeuZfDOzd2FUffPZv3j8vM0CBw8
3mtJN7a5XjH1Xv/CKLtGaHVb/8xMF7n+z3RSi/tLQ50Yzv8wx6XA1w5yzrYq9V7f
G971h9+8fhc/33NdtT6uqyGp/p5Z87cYZFjfF0cHEYS+q3kebtOp3B2roLDYJPCO
vwA5FZ1V

С документацией по двум вышеописанным парсерам вы можете ознакомиться по ссылкам:
https://a-parser.com/wiki/se-google/
https://a-parser.com/wiki/html-emailextractor/

Также вы можете воспользоваться опцией Parse to level, чтобы указать глубину перехода по страницам для

HTML::EmailExtractor. Подробней об этом вы можете ознакомиться по ссылке:
https://a-parser.com/wiki/html-emailextractor/#Опция-parse-to-level

Eugenebeon · 24 Июл 2017

Это нужно делать обязательно двумя проходами или можно настроить за один ?

Support Денис · 24 Июл 2017

Вы можете использовать опцию Запустить по завершению. Для этого кликните на кнопку "Больше опций ".
В выпадающем списке выберите задание которое будете запускать, и кликните на галочку "Использовать файл результатов для запросов"

Сообщением выше в спойлере Код пресета есть данные для иморта уже готового задания в ваш A-Parser. Там также используется опция Запустить по завершению.

Для того чтобы импортировать пресет нажмите на кнопку импорта/экспорта

Выберите "Импортировать пресет" и в открывшемся окне вставьте код пресета

Eugenebeon · 24 Июл 2017

Спасибо.
Возникло еще несколько вопросов:
1. В SE:Google есть параметр город, его нужно указывать полный или скоращенный - New York или NY ?
2. Как получать все результаты с запроса, а не только 1000 ?
3. Как кстановить параметр, который как в быстром задании добавляет 3 буквы к запросу ?
4. Как установить unique queries ?

Support Денис · 24 Июл 2017

1) Можно указывать города в виде novosibirsk, russia; полный список локаций можно найти по ссылке. Также необходимо выставлять корректный домен гугла.
2)Чтобы обойти ограничение в 1000 результатов воспользуйтесь опцией Parse all results
3)Редактировать запросы возможно формате результата. Для более полного ответа уточните вопрос.

4) Установить уникальные запросы можно кликнув на чекбокс уникальные запросы(см. картинку выше)

Eugenebeon · 25 Июл 2017

Спасибо.
Еще 2 вопроса:

1. Как в

HTML::EmailExtractor можно ограничить количество запросов для одного сайта - выходит так, что он попадает на страницй с большим количеством ссылок и зависает на одном сайте. Parse to level - 1, unique queries - включен ?
2. Как сделать так, что бы после SE Google получались в результате только домены ?
Например. есть результат:
http://webdigia.com/search-engine-optimization/seo-services/local-seo
А нужно что бы сохранялся:
http://webdigia.com/

Support Денис · 25 Июл 2017

1. Ограничить нельзя, парсер парсит все то, что находит. Единственный вариант - применять фильтр к $followlinks, и отфильтровывать ссылки, которые вам не нужны.
2. Есть два варианта решения этой задачи:
a) Применить в Конструкторе результата функцию Extract Domain и немного поправив Result format:

б) Применив Parse custom results и с помощью регулярного выражения выбрав только необходимую часть:

Eugenebeon · 25 Июл 2017

1. Это не очень, когда попадает на страницы типа sitemap, много безрезультатно ходит по ссылкам и вылетает парсер.
2. Вариант а) подошел

Как я понял 2 - это количество за загруженных соурсов, 3 - это то что он насобирал походу.
Вопрос - дополнительные ссылки он парсит вместе с исходными или после них ?

Support · 25 Июл 2017

Eugenebeon сказал(а):
1. Это не очень, когда попадает на страницы типа sitemap, много безрезультатно ходит по ссылкам и вылетает парсер.

Не вижу связи.
Вы создали тикет по вылету парсера, поэтому не нужно дублировать тему здесь. Судя по пресету и запросам в тикете, глубина парсинга 1, на вход главные страницы. Если сайтмап и попадается, то парсер уже не перейдет по страницам из него (т.к. глубина 1). Но даже если бы и переходил - очень врятли от этого парсер мог бы падать.

На вашем скрине:
1 - кол-во обработанных запросов
2 - кол-во начальных запросов
3 - кол-во добавленных запросов

Eugenebeon сказал(а):
Вопрос - дополнительные ссылки он парсит вместе с исходными или после них ?

Вместе, в порядке их добавления в очередь.

seomosq · 29 Авг 2017

Не могу найти парсер HTML::MailExtractor в своем апарсере. Обновился до последнего (1.1.918) нету. Не подскажете в чем проблема?
У меня ПРО версия и та м есть html::text... html::link... html::text...lang. Но email нету.

vadim4uk · 29 Авг 2017

seomosq сказал(а):
Не могу найти парсер HTML::MailExtractor в своем апарсере. Обновился до последнего (1.1.918) нету. Не подскажете в чем проблема?
У меня ПРО версия и та м есть html::text... html::link... html::text...lang. Но email нету.

Он в этом же пресете в самом низу - http://take.ms/Gf34X

vadim4uk · 29 Авг 2017

А у меня Extractor не чистит от ссылок на страницы, вот такой результат получается - http://take.ms/RAtVx
Можно его как то пофиксить?

Support Денис · 29 Авг 2017

seomosq сказал(а):
Не могу найти парсер HTML::MailExtractor в своем апарсере. Обновился до последнего (1.1.918) нету. Не подскажете в чем проблема?
У меня ПРО версия и та м есть html::text... html::link... html::text...lang. Но email нету.

Здравствуйте может вам необходим

HTML::EmailExtractor?

vadim4uk сказал(а):
А у меня Extractor не чистит от ссылок на страницы, вот такой результат получается - http://take.ms/RAtVx
Можно его как то пофиксить?

О каком именно Extractor идет речь ? Text,Link или Email ?

vadim4uk · 29 Авг 2017

Support Денис сказал(а):
Здравствуйте может вам необходим HTML::EmailExtractor?

О каком именно Extractor идет речь ? Text,Link или Email ?

Email

Support Денис · 29 Авг 2017

Покажите формат результата

seomosq · 29 Авг 2017

Support Денис сказал(а):
Здравствуйте может вам необходим HTML::EmailExtractor?

Да, именно он. Но его нет у меня в списке, его надо установить дополнительно или купить ? За одно хотел спросить как импортировать в АП ссылки вида https://a-parser.com/resources/155/download?version=180 С чекерами или как там.

vadim4uk · 29 Авг 2017

Support Денис сказал(а):
Покажите формат результата

Собрать email с сайтов определенной тематики

A-Parser Enterprise License

Administrator

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

A-Parser Enterprise License

Administrator

A-Parser Pro License

A-Parser Pro License

A-Parser Pro License

A-Parser Enterprise License

A-Parser Pro License

A-Parser Enterprise License

A-Parser Pro License

A-Parser Pro License

Вложения

О нас

Быстрая навигация

Соцсети

Поддержка