Помогите создать пресет под задачу: Собрать email с сайтов определенной тематики, например - автомобильные сайты.
Здравствуйте! Решить описанную вами задачу возможно двумя пресетами. В первом пресете используем парсер SE::Google(можно и SE::Yandex), для того чтобы собрать список сайтов по определённому запросу. Вторым пресетом собираем email с полученных сайтов используя HTML::EmailExtractor, используя в качестве запросов файл результат работы первого. Спойлер: Код пресета eJztVU2P2jAQ/SvI4rCVgCWB1ba50RW0XdGFLuyJosoiE+SuE6f+oKCI/96x8wld 1MMe2kOlyLLnzbx5Hs8oGdFUPau5BAVakWCVkdTtSUDmVCoYx5TxkdGCdEhqDdJ6 rchiHAQfhNhyQCCEiBquSScj+pACxoodSMlCC7IQz6kU+4MELRkotO0oN9Zt0CfH y0Fb3nB9fCLH9bpDUB2mUhMhY2pVtlOvV0iuwAXdwVIgGDGnr4zB0wONLVs7pBos 2osc0dWbnt5bBhqGTDORUJ5nsLetsz4l7IdTk9h64NbeZyJFjCYNjsAaD6W6FWm7 M0EK42K/5DEkiChX0CEKpU6wxBCeI0yDpFrIWWr1oD0jIhlxPoUd8NrN8b83jIf4 NKMIgz4VgS+7zH7jOFbXa6bCt/gpUUPtFIqp2JZ3fwZIq2o8WEssJFQEWhqoaLG7 Ukjsi9ZvMUpr04m+k3qfGjciidh2VnRJ6WmSJbbwLLkTccrBCj7rXB9TGAWPdROM VFFse6jEnhPduXRIV7U30UJwdb/IZaeSYY/dVH2A1q+mPxy8dWto16Hv9jdu36/t hcXvusPGrTk8aOxvm3StBuA3uKHhmqORQxuWoXeuZfDOzd2FUffPZv3j8vM0CBw8 3mtJN7a5XjH1Xv/CKLtGaHVb/8xMF7n+z3RSi/tLQ50Yzv8wx6XA1w5yzrYq9V7f G971h9+8fhc/33NdtT6uqyGp/p5Z87cYZFjfF0cHEYS+q3kebtOp3B2roLDYJPCO vwA5FZ1V С документацией по двум вышеописанным парсерам вы можете ознакомиться по ссылкам: https://a-parser.com/wiki/se-google/ https://a-parser.com/wiki/html-emailextractor/ Также вы можете воспользоваться опцией Parse to level, чтобы указать глубину перехода по страницам для HTML::EmailExtractor. Подробней об этом вы можете ознакомиться по ссылке: https://a-parser.com/wiki/html-emailextractor/#Опция-parse-to-level
Вы можете использовать опцию Запустить по завершению. Для этого кликните на кнопку "Больше опций ". В выпадающем списке выберите задание которое будете запускать, и кликните на галочку "Использовать файл результатов для запросов" Сообщением выше в спойлере Код пресета есть данные для иморта уже готового задания в ваш A-Parser. Там также используется опция Запустить по завершению. Для того чтобы импортировать пресет нажмите на кнопку импорта/экспорта Выберите "Импортировать пресет" и в открывшемся окне вставьте код пресета
Спасибо. Возникло еще несколько вопросов: 1. В SE:Google есть параметр город, его нужно указывать полный или скоращенный - New York или NY ? 2. Как получать все результаты с запроса, а не только 1000 ? 3. Как кстановить параметр, который как в быстром задании добавляет 3 буквы к запросу ? 4. Как установить unique queries ?
1) Можно указывать города в виде novosibirsk, russia; полный список локаций можно найти по ссылке. Также необходимо выставлять корректный домен гугла. 2)Чтобы обойти ограничение в 1000 результатов воспользуйтесь опцией Parse all results 3)Редактировать запросы возможно формате результата. Для более полного ответа уточните вопрос. 4) Установить уникальные запросы можно кликнув на чекбокс уникальные запросы(см. картинку выше)
Спасибо. Еще 2 вопроса: 1. Как в HTML::EmailExtractor можно ограничить количество запросов для одного сайта - выходит так, что он попадает на страницй с большим количеством ссылок и зависает на одном сайте. Parse to level - 1, unique queries - включен ? 2. Как сделать так, что бы после SE Google получались в результате только домены ? Например. есть результат: http://webdigia.com/search-engine-optimization/seo-services/local-seo А нужно что бы сохранялся: http://webdigia.com/
1. Ограничить нельзя, парсер парсит все то, что находит. Единственный вариант - применять фильтр к $followlinks, и отфильтровывать ссылки, которые вам не нужны. 2. Есть два варианта решения этой задачи: a) Применить в Конструкторе результата функцию Extract Domain и немного поправив Result format: б) Применив Parse custom results и с помощью регулярного выражения выбрав только необходимую часть:
1. Это не очень, когда попадает на страницы типа sitemap, много безрезультатно ходит по ссылкам и вылетает парсер. 2. Вариант а) подошел Как я понял 2 - это количество за загруженных соурсов, 3 - это то что он насобирал походу. Вопрос - дополнительные ссылки он парсит вместе с исходными или после них ?
Не вижу связи. Вы создали тикет по вылету парсера, поэтому не нужно дублировать тему здесь. Судя по пресету и запросам в тикете, глубина парсинга 1, на вход главные страницы. Если сайтмап и попадается, то парсер уже не перейдет по страницам из него (т.к. глубина 1). Но даже если бы и переходил - очень врятли от этого парсер мог бы падать. На вашем скрине: 1 - кол-во обработанных запросов 2 - кол-во начальных запросов 3 - кол-во добавленных запросов Вместе, в порядке их добавления в очередь.
Не могу найти парсер HTML::MailExtractor в своем апарсере. Обновился до последнего (1.1.918) нету. Не подскажете в чем проблема? У меня ПРО версия и та м есть html::text... html::link... html::text...lang. Но email нету.
А у меня Extractor не чистит от ссылок на страницы, вот такой результат получается - http://take.ms/RAtVx Можно его как то пофиксить?
Здравствуйте может вам необходим HTML::EmailExtractor? О каком именно Extractor идет речь ? Text,Link или Email ?
Да, именно он. Но его нет у меня в списке, его надо установить дополнительно или купить ? За одно хотел спросить как импортировать в АП ссылки вида https://a-parser.com/resources/155/download?version=180 С чекерами или как там.