1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Собрать email с сайтов определенной тематики

Тема в разделе "Техническая поддержка", создана пользователем Eugenebeon, 23 июл 2017.

  1. Eugenebeon

    Eugenebeon A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 июл 2017
    Сообщения:
    6
    Симпатии:
    1
    Помогите создать пресет под задачу:
    Собрать email с сайтов определенной тематики, например - автомобильные сайты.
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Добрый день, поддержка осуществляется только для владельцев лицензии, перелогиньтесь :)
     
  3. Eugenebeon

    Eugenebeon A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 июл 2017
    Сообщения:
    6
    Симпатии:
    1
    Теперь осуществляется ? ;)
     
    Forbidden нравится это.
  4. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Здравствуйте!
    Решить описанную вами задачу возможно двумя пресетами.
    В первом пресете используем парсер SE::Google SE::Google(можно и SE::Yandex SE::Yandex), для того чтобы собрать список сайтов по определённому запросу.
    AutoEmail1.png
    Вторым пресетом собираем email с полученных сайтов используя HTML::EmailExtractor HTML::EmailExtractor, используя в
    качестве запросов файл результат работы первого.
    AutoEmail2.png
    eJztVU2P2jAQ/SvI4rCVgCWB1ba50RW0XdGFLuyJosoiE+SuE6f+oKCI/96x8wld
    1MMe2kOlyLLnzbx5Hs8oGdFUPau5BAVakWCVkdTtSUDmVCoYx5TxkdGCdEhqDdJ6
    rchiHAQfhNhyQCCEiBquSScj+pACxoodSMlCC7IQz6kU+4MELRkotO0oN9Zt0CfH
    y0Fb3nB9fCLH9bpDUB2mUhMhY2pVtlOvV0iuwAXdwVIgGDGnr4zB0wONLVs7pBos
    2osc0dWbnt5bBhqGTDORUJ5nsLetsz4l7IdTk9h64NbeZyJFjCYNjsAaD6W6FWm7
    M0EK42K/5DEkiChX0CEKpU6wxBCeI0yDpFrIWWr1oD0jIhlxPoUd8NrN8b83jIf4
    NKMIgz4VgS+7zH7jOFbXa6bCt/gpUUPtFIqp2JZ3fwZIq2o8WEssJFQEWhqoaLG7
    Ukjsi9ZvMUpr04m+k3qfGjciidh2VnRJ6WmSJbbwLLkTccrBCj7rXB9TGAWPdROM
    VFFse6jEnhPduXRIV7U30UJwdb/IZaeSYY/dVH2A1q+mPxy8dWto16Hv9jdu36/t
    hcXvusPGrTk8aOxvm3StBuA3uKHhmqORQxuWoXeuZfDOzd2FUffPZv3j8vM0CBw8
    3mtJN7a5XjH1Xv/CKLtGaHVb/8xMF7n+z3RSi/tLQ50Yzv8wx6XA1w5yzrYq9V7f
    G971h9+8fhc/33NdtT6uqyGp/p5Z87cYZFjfF0cHEYS+q3kebtOp3B2roLDYJPCO
    vwA5FZ1V
    С документацией по двум вышеописанным парсерам вы можете ознакомиться по ссылкам:
    https://a-parser.com/wiki/se-google/
    https://a-parser.com/wiki/html-emailextractor/

    Также вы можете воспользоваться опцией Parse to level, чтобы указать глубину перехода по страницам для HTML::EmailExtractor HTML::EmailExtractor. Подробней об этом вы можете ознакомиться по ссылке:
    https://a-parser.com/wiki/html-emailextractor/#Опция-parse-to-level
     
    #4 Support Денис, 24 июл 2017
    Последнее редактирование: 24 июл 2017
    vadim4uk и Forbidden нравится это.
  5. Eugenebeon

    Eugenebeon A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 июл 2017
    Сообщения:
    6
    Симпатии:
    1
    Это нужно делать обязательно двумя проходами или можно настроить за один ?
     
  6. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Вы можете использовать опцию Запустить по завершению. Для этого кликните на кнопку "Больше опций ".
    В выпадающем списке выберите задание которое будете запускать, и кликните на галочку "Использовать файл результатов для запросов"
    AutoEmail3.png
    Сообщением выше в спойлере Код пресета есть данные для иморта уже готового задания в ваш A-Parser. Там также используется опция Запустить по завершению.

    Для того чтобы импортировать пресет нажмите на кнопку импорта/экспорта

    [​IMG]
    Выберите "Импортировать пресет" и в открывшемся окне вставьте код пресета
     
    #6 Support Денис, 24 июл 2017
    Последнее редактирование: 24 июл 2017
    vadim4uk нравится это.
  7. Eugenebeon

    Eugenebeon A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 июл 2017
    Сообщения:
    6
    Симпатии:
    1
    Спасибо.
    Возникло еще несколько вопросов:
    1. В SE:Google есть параметр город, его нужно указывать полный или скоращенный - New York или NY ?
    2. Как получать все результаты с запроса, а не только 1000 ?
    3. Как кстановить параметр, который как в быстром задании добавляет 3 буквы к запросу ?
    4. Как установить unique queries ?

    upload_2017-7-24_13-10-38.png
     
  8. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    1) Можно указывать города в виде novosibirsk, russia; полный список локаций можно найти по ссылке. Также необходимо выставлять корректный домен гугла.
    2)Чтобы обойти ограничение в 1000 результатов воспользуйтесь опцией Parse all results
    3)Редактировать запросы возможно формате результата. Для более полного ответа уточните вопрос.
    [​IMG]

    4) Установить уникальные запросы можно кликнув на чекбокс уникальные запросы(см. картинку выше)
     
    #8 Support Денис, 24 июл 2017
    Последнее редактирование: 24 июл 2017
  9. Eugenebeon

    Eugenebeon A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 июл 2017
    Сообщения:
    6
    Симпатии:
    1
    Спасибо.
    Еще 2 вопроса:

    1. Как в [​IMG] HTML::EmailExtractor можно ограничить количество запросов для одного сайта - выходит так, что он попадает на страницй с большим количеством ссылок и зависает на одном сайте. Parse to level - 1, unique queries - включен ?
    2. Как сделать так, что бы после SE Google получались в результате только домены ?
    Например. есть результат:
    http://webdigia.com/search-engine-optimization/seo-services/local-seo
    А нужно что бы сохранялся:
    http://webdigia.com/
     
    #9 Eugenebeon, 25 июл 2017
    Последнее редактирование: 25 июл 2017
  10. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    1. Ограничить нельзя, парсер парсит все то, что находит. Единственный вариант - применять фильтр к $followlinks, и отфильтровывать ссылки, которые вам не нужны.
    2. Есть два варианта решения этой задачи:
    a) Применить в Конструкторе результата функцию Extract Domain и немного поправив Result format: [​IMG]

    б) Применив Parse custom results и с помощью регулярного выражения выбрав только необходимую часть: [​IMG]
     
    #10 Support Денис, 25 июл 2017
    Последнее редактирование модератором: 25 июл 2017
  11. Eugenebeon

    Eugenebeon A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 июл 2017
    Сообщения:
    6
    Симпатии:
    1
    1. Это не очень, когда попадает на страницы типа sitemap, много безрезультатно ходит по ссылкам и вылетает парсер.
    2. Вариант а) подошел


    Как я понял 2 - это количество за загруженных соурсов, 3 - это то что он насобирал походу.
    Вопрос - дополнительные ссылки он парсит вместе с исходными или после них ?

    upload_2017-7-25_13-26-45.png
     
  12. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.347
    Симпатии:
    2.096
    Не вижу связи.
    Вы создали тикет по вылету парсера, поэтому не нужно дублировать тему здесь. Судя по пресету и запросам в тикете, глубина парсинга 1, на вход главные страницы. Если сайтмап и попадается, то парсер уже не перейдет по страницам из него (т.к. глубина 1). Но даже если бы и переходил - очень врятли от этого парсер мог бы падать.

    На вашем скрине:
    1 - кол-во обработанных запросов
    2 - кол-во начальных запросов
    3 - кол-во добавленных запросов

    Вместе, в порядке их добавления в очередь.
     
  13. seomosq

    seomosq A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 сен 2015
    Сообщения:
    15
    Симпатии:
    3
    Не могу найти парсер HTML::MailExtractor в своем апарсере. Обновился до последнего (1.1.918) нету. Не подскажете в чем проблема?
    У меня ПРО версия и та м есть html::text... html::link... html::text...lang. Но email нету.
     
  14. vadim4uk

    vadim4uk A-Parser Pro License
    A-Parser Pro

    Регистрация:
    12 май 2017
    Сообщения:
    32
    Симпатии:
    4
    Он в этом же пресете в самом низу - http://take.ms/Gf34X
     
  15. vadim4uk

    vadim4uk A-Parser Pro License
    A-Parser Pro

    Регистрация:
    12 май 2017
    Сообщения:
    32
    Симпатии:
    4
    А у меня Extractor не чистит от ссылок на страницы, вот такой результат получается - http://take.ms/RAtVx
    Можно его как то пофиксить?
     
  16. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Здравствуйте может вам необходим HTML::EmailExtractor HTML::EmailExtractor?
    О каком именно Extractor идет речь ? Text,Link или Email ?
     
  17. vadim4uk

    vadim4uk A-Parser Pro License
    A-Parser Pro

    Регистрация:
    12 май 2017
    Сообщения:
    32
    Симпатии:
    4
    Email
     
  18. Support Денис

    Support Денис A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    12 июн 2017
    Сообщения:
    586
    Симпатии:
    185
    Покажите формат результата
     
  19. seomosq

    seomosq A-Parser Pro License
    A-Parser Pro

    Регистрация:
    7 сен 2015
    Сообщения:
    15
    Симпатии:
    3
    Да, именно он. Но его нет у меня в списке, его надо установить дополнительно или купить ? За одно хотел спросить как импортировать в АП ссылки вида https://a-parser.com/resources/155/download?version=180 С чекерами или как там.
     
  20. vadim4uk

    vadim4uk A-Parser Pro License
    A-Parser Pro

    Регистрация:
    12 май 2017
    Сообщения:
    32
    Симпатии:
    4
     

    Вложения:

Поделиться этой страницей