Собрать email с сайтов определенной тематики

Eugenebeon

A-Parser Enterprise License
A-Parser Enterprise
Помогите создать пресет под задачу:
Собрать email с сайтов определенной тематики, например - автомобильные сайты.
 
Добрый день, поддержка осуществляется только для владельцев лицензии, перелогиньтесь :)
 
Здравствуйте!
Решить описанную вами задачу возможно двумя пресетами.
В первом пресете используем парсер SE::Google SE::Google(можно и SE::Yandex SE::Yandex), для того чтобы собрать список сайтов по определённому запросу.
AutoEmail1.png
Вторым пресетом собираем email с полученных сайтов используя HTML::EmailExtractor HTML::EmailExtractor, используя в
качестве запросов файл результат работы первого.
AutoEmail2.png
eJztVU2P2jAQ/SvI4rCVgCWB1ba50RW0XdGFLuyJosoiE+SuE6f+oKCI/96x8wld
1MMe2kOlyLLnzbx5Hs8oGdFUPau5BAVakWCVkdTtSUDmVCoYx5TxkdGCdEhqDdJ6
rchiHAQfhNhyQCCEiBquSScj+pACxoodSMlCC7IQz6kU+4MELRkotO0oN9Zt0CfH
y0Fb3nB9fCLH9bpDUB2mUhMhY2pVtlOvV0iuwAXdwVIgGDGnr4zB0wONLVs7pBos
2osc0dWbnt5bBhqGTDORUJ5nsLetsz4l7IdTk9h64NbeZyJFjCYNjsAaD6W6FWm7
M0EK42K/5DEkiChX0CEKpU6wxBCeI0yDpFrIWWr1oD0jIhlxPoUd8NrN8b83jIf4
NKMIgz4VgS+7zH7jOFbXa6bCt/gpUUPtFIqp2JZ3fwZIq2o8WEssJFQEWhqoaLG7
Ukjsi9ZvMUpr04m+k3qfGjciidh2VnRJ6WmSJbbwLLkTccrBCj7rXB9TGAWPdROM
VFFse6jEnhPduXRIV7U30UJwdb/IZaeSYY/dVH2A1q+mPxy8dWto16Hv9jdu36/t
hcXvusPGrTk8aOxvm3StBuA3uKHhmqORQxuWoXeuZfDOzd2FUffPZv3j8vM0CBw8
3mtJN7a5XjH1Xv/CKLtGaHVb/8xMF7n+z3RSi/tLQ50Yzv8wx6XA1w5yzrYq9V7f
G971h9+8fhc/33NdtT6uqyGp/p5Z87cYZFjfF0cHEYS+q3kebtOp3B2roLDYJPCO
vwA5FZ1V
С документацией по двум вышеописанным парсерам вы можете ознакомиться по ссылкам:
https://a-parser.com/wiki/se-google/
https://a-parser.com/wiki/html-emailextractor/

Также вы можете воспользоваться опцией Parse to level, чтобы указать глубину перехода по страницам для HTML::EmailExtractor HTML::EmailExtractor. Подробней об этом вы можете ознакомиться по ссылке:
https://a-parser.com/wiki/html-emailextractor/#Опция-parse-to-level
 
Последнее редактирование:
Это нужно делать обязательно двумя проходами или можно настроить за один ?
 
Вы можете использовать опцию Запустить по завершению. Для этого кликните на кнопку "Больше опций ".
В выпадающем списке выберите задание которое будете запускать, и кликните на галочку "Использовать файл результатов для запросов"
AutoEmail3.png
Сообщением выше в спойлере Код пресета есть данные для иморта уже готового задания в ваш A-Parser. Там также используется опция Запустить по завершению.

Для того чтобы импортировать пресет нажмите на кнопку импорта/экспорта

import.png

Выберите "Импортировать пресет" и в открывшемся окне вставьте код пресета
 
Последнее редактирование:
Спасибо.
Возникло еще несколько вопросов:
1. В SE:Google есть параметр город, его нужно указывать полный или скоращенный - New York или NY ?
2. Как получать все результаты с запроса, а не только 1000 ?
3. Как кстановить параметр, который как в быстром задании добавляет 3 буквы к запросу ?
4. Как установить unique queries ?

upload_2017-7-24_13-10-38.png
 
1) Можно указывать города в виде novosibirsk, russia; полный список локаций можно найти по ссылке. Также необходимо выставлять корректный домен гугла.
2)Чтобы обойти ограничение в 1000 результатов воспользуйтесь опцией Parse all results
3)Редактировать запросы возможно формате результата. Для более полного ответа уточните вопрос.
query.png


4) Установить уникальные запросы можно кликнув на чекбокс уникальные запросы(см. картинку выше)
 
Последнее редактирование:
Спасибо.
Еще 2 вопроса:

1. Как в
html-emailextractor.png
HTML::EmailExtractor можно ограничить количество запросов для одного сайта - выходит так, что он попадает на страницй с большим количеством ссылок и зависает на одном сайте. Parse to level - 1, unique queries - включен ?
2. Как сделать так, что бы после SE Google получались в результате только домены ?
Например. есть результат:
http://webdigia.com/search-engine-optimization/seo-services/local-seo
А нужно что бы сохранялся:
http://webdigia.com/
 
Последнее редактирование:
1. Ограничить нельзя, парсер парсит все то, что находит. Единственный вариант - применять фильтр к $followlinks, и отфильтровывать ссылки, которые вам не нужны.
2. Есть два варианта решения этой задачи:
a) Применить в Конструкторе результата функцию Extract Domain и немного поправив Result format:
client1.png


б) Применив Parse custom results и с помощью регулярного выражения выбрав только необходимую часть:
client2.png
 
Последнее редактирование модератором:
1. Это не очень, когда попадает на страницы типа sitemap, много безрезультатно ходит по ссылкам и вылетает парсер.
2. Вариант а) подошел


Как я понял 2 - это количество за загруженных соурсов, 3 - это то что он насобирал походу.
Вопрос - дополнительные ссылки он парсит вместе с исходными или после них ?

upload_2017-7-25_13-26-45.png
 
1. Это не очень, когда попадает на страницы типа sitemap, много безрезультатно ходит по ссылкам и вылетает парсер.
Не вижу связи.
Вы создали тикет по вылету парсера, поэтому не нужно дублировать тему здесь. Судя по пресету и запросам в тикете, глубина парсинга 1, на вход главные страницы. Если сайтмап и попадается, то парсер уже не перейдет по страницам из него (т.к. глубина 1). Но даже если бы и переходил - очень врятли от этого парсер мог бы падать.

На вашем скрине:
1 - кол-во обработанных запросов
2 - кол-во начальных запросов
3 - кол-во добавленных запросов

Вопрос - дополнительные ссылки он парсит вместе с исходными или после них ?
Вместе, в порядке их добавления в очередь.
 
Не могу найти парсер HTML::MailExtractor в своем апарсере. Обновился до последнего (1.1.918) нету. Не подскажете в чем проблема?
У меня ПРО версия и та м есть html::text... html::link... html::text...lang. Но email нету.
 
Не могу найти парсер HTML::MailExtractor в своем апарсере. Обновился до последнего (1.1.918) нету. Не подскажете в чем проблема?
У меня ПРО версия и та м есть html::text... html::link... html::text...lang. Но email нету.

Он в этом же пресете в самом низу - http://take.ms/Gf34X
 
А у меня Extractor не чистит от ссылок на страницы, вот такой результат получается - http://take.ms/RAtVx
Можно его как то пофиксить?
 
Не могу найти парсер HTML::MailExtractor в своем апарсере. Обновился до последнего (1.1.918) нету. Не подскажете в чем проблема?
У меня ПРО версия и та м есть html::text... html::link... html::text...lang. Но email нету.
Здравствуйте может вам необходим HTML::EmailExtractor HTML::EmailExtractor?
А у меня Extractor не чистит от ссылок на страницы, вот такой результат получается - http://take.ms/RAtVx
Можно его как то пофиксить?

О каком именно Extractor идет речь ? Text,Link или Email ?
 
Здравствуйте может вам необходим HTML::EmailExtractor HTML::EmailExtractor?
Да, именно он. Но его нет у меня в списке, его надо установить дополнительно или купить ? За одно хотел спросить как импортировать в АП ссылки вида https://a-parser.com/resources/155/download?version=180 С чекерами или как там.
 
Назад
Верх