Парсинг SimilarWeb

Тема в разделе "Техническая поддержка", создана пользователем alexcraft, 13 мар 2017.

  1. alexcraft

    alexcraft A-Parser Pro License
    A-Parser Pro

    Регистрация:
    6 мар 2016
    Сообщения:
    3
    Симпатии:
    0
    Здравствуйте. Создал простенький парсер, собираю количество трафика через SimilarWeb и alexa rank.
    [​IMG]
    Столкнулся с проблемой: когда даю 10000 доменов, он собирает значения где то для 1000 доменов, а потом постоянно значение none записывает из SimilarWeb. Алексу нормально собирает для всех доменов. Пробую те домены, которые были none запустить через тестирование и данные собираются нормально. Подскажите пожалуйста в чем может быть загвоздка?
    P.S. Собираю в 35 потоков. Прокси из MembersArea.
    Код пресета, на всякий случай, ниже:
    eyJwcmVzZXQiOiJDaGVja01pcmFsaW5rcyIsInZhbHVlIjp7InByZXNldCI6IkNo
    ZWNrTWlyYWxpbmtzIiwicGFyc2VycyI6W1siTmV0OjpIVFRQIiwiZGVmYXVsdCIs
    eyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBd
    fSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6
    Imh0dHBzOi8vd3d3LnNpbWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In1dLFsi
    UmFuazo6QWxleGEiLCJvbmx5X2FsZXhhX3JhbmsiXV0sInJlc3VsdHNGb3JtYXQi
    OiIkcXVlcnk7JHAxLnRyYWZpYzskcDIucHJlc2V0XFxuIiwicmVzdWx0c1NhdmVU
    byI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiIkZGF0ZWZpbGUuZm9ybWF0KCku
    dHh0IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8i
    LCJxdWVyaWVzRnJvbSI6ImZpbGUiLCJxdWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwi
    dW5pcXVlUXVlcmllcyI6ZmFsc2UsInNhdmVGYWlsZWRRdWVyaWVzIjp0cnVlLCJp
    dGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxk
    ZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVs
    cyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwi
    ZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjp0cnVl
    LCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1
    aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRh
    Il0sInR5cGUiOiJ4cGF0aCIsInhwYXRoIjoiLy9zcGFuW0BjbGFzcz0nZW5nYWdl
    bWVudEluZm8tdmFsdWVOdW1iZXIganMtY291bnRWYWx1ZSddIiwidG8iOiJ0cmFm
    aWMifV0sImNvbmZpZ092ZXJyaWRlcyI6W10sInJ1blRhc2tPbkNvbXBsZXRlIjpu
    dWxsLCJ1c2VSZXN1bHRzRmlsZUFzUXVlcmllc0ZpbGUiOmZhbHNlLCJydW5UYXNr
    T25Db21wbGV0ZUNvbmZpZyI6ImRlZmF1bHQiLCJ0b29sc0pTIjoiIiwicXVlcmll
    c0ZpbGUiOlsibWlyYWxpbmtzX3Rlc3RfQkFELnR4dCJdfSwicGFyc2Vyc0NvbmZQ
    cmVzZXRzIjp7IlJhbms6OkFsZXhhIjp7Im9ubHlfYWxleGFfcmFuayI6eyJwcm94
    eXJldHJpZXMiOiIxMCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZvcm1hdCI6IiRx
    dWVyeSIsImZvcm1hdHJlc3VsdCI6IiRyYW5rIiwibWF4X3NpemUiOiIxMDQ4NTc2
    IiwicHJveHliYW5uZWRjbGVhbnVwIjoiMzAwIiwidGltZW91dCI6IjYwIiwicmVx
    dWVzdGRlbGF5IjoiMCIsInByb3h5Q2hlY2tlciI6IioiLCJkb19nemlwIjp0cnVl
    LCJleHRyYXF1ZXJ5IjoiIn19fX0=
     

    Вложения:

  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    2.134
    Симпатии:
    1.461
    Добрый день.
    Если посмотреть на содержимое страницы в тот момент, когда пресет по запросу выдает none, то мы увидим что выдается пустая страница с редиректом на страницу каптчи. Поэтому нужно сделать (и это проще всего), чтобы парсер при получении такой страницы просто повторял запрос. Для этого существует функция Check content. Делаем так:
    [​IMG]
    и в результатах больше не будет none из-за каптчи.
     
    alexcraft, relay и Forbidden нравится это.
  3. benone

    benone A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 апр 2014
    Сообщения:
    44
    Симпатии:
    1
    Почему-то не получается получить данные через XPath:(

    Вот пресет:
    Код:
    eyJwcmVzZXQiOiJTaW1pbGFyV2ViIiwidmFsdWUiOnsicHJlc2V0IjoiU2ltaWxh
    cldlYiIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsIlx1MDQyMVx1MDQ0Mlx1MDQz
    MFx1MDQzZFx1MDQzNFx1MDQzMFx1MDQ0MFx1MDQ0MiIseyJ0eXBlIjoib3ZlcnJp
    ZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBdfSx7InR5cGUiOiJvdmVy
    cmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6Imh0dHBzOi8vd3d3LnNp
    bWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In0seyJ0eXBlIjoib3ZlcnJpZGUi
    LCJpZCI6InVzZXByb3h5IiwidmFsdWUiOnRydWV9LHsidHlwZSI6Im9wdGlvbnMi
    LCJpZCI6ImNoZWNrQ29udGVudCIsInZhbHVlIjoiZW5nYWdlbWVudEluZm8iLCJh
    ZGRpdGlvbmFsIjp7ImNoZWNrQ29udGVudE1hdGNoVHlwZSI6MX19LHsidHlwZSI6
    Im92ZXJyaWRlIiwiaWQiOiJ0aW1lb3V0IiwidmFsdWUiOiIxMCJ9XV0sInJlc3Vs
    dHNGb3JtYXQiOiIkcXVlcnk7JHRyYWZmaWNcXG4iLCJyZXN1bHRzU2F2ZVRvIjoi
    ZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50eHQi
    LCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1
    ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2
    ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxM
    ZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2Us
    InF1ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9u
    cyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUi
    OiJObyIsIm1vcmVPcHRpb25zIjp0cnVlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJl
    c3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxk
    ZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRhIl0sInR5cGUiOiJ4cGF0aCIsInhwYXRo
    IjoiLy9zcGFuW2NvbnRhaW5zKEBjbGFzcywnZW5nYWdlbWVudEluZm8tdmFsdWVO
    dW1iZXIganMtY291bnRWYWx1ZSBzZ19zZWxlY3RlZCcpXSIsInRvIjoidHJhZmZp
    YyJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUiOm51
    bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRhc2tP
    bkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMiOiIifSwicGFyc2Vy
    c0NvbmZQcmVzZXRzIjp7Ik5ldDo6SFRUUCI6eyJcdTA0MjFcdTA0NDJcdTA0MzBc
    dTA0M2RcdTA0MzRcdTA0MzBcdTA0NDBcdTA0NDIiOnsidXNlci1hZ2VudCI6Ik1v
    emlsbGEvNC4wIChjb21wYXRpYmxlOyBNU0lFIDYuMDsgV2luZG93cyBOVCA1LjE7
    IFNWMSkiLCJxdWVyeWZvcm1hdCI6IiRxdWVyeSIsImhlYWRlcnMiOiIiLCJnb29k
    Q29kZVJlZ2V4IjoiIiwiYnJvd3NlciI6dHJ1ZSwicHJveHlDaGVja2VyIjoiKiIs
    Imdvb2RDb2RlIjoiIiwiZG9fZ3ppcCI6dHJ1ZSwiYm9keSI6IiIsInRpbWVvdXQi
    OiI1IiwibWF4Q29va2llcyI6MTYsIm1ldGhvZCI6IkdFVCIsInVzZXByb3h5Ijp0
    cnVlLCJieXBhc3NDbG91ZEZsYXJlIjoxLCJvbmx5aGVhZGVycyI6ZmFsc2UsImNv
    b2tpZXMiOiIiLCJwcm94eXJldHJpZXMiOiIxMCIsInJlcXVlc3RkZWxheSI6IjAi
    LCJwcm94eWJhbm5lZGNsZWFudXAiOiIzMDAiLCJmb3JtYXRyZXN1bHQiOiIkY29k
    ZSAkcmVhc29uXFxuJGhlYWRlcnNcXG5cXG4kZGF0YSIsImRldGVjdGNoYXJzZXQi
    OnRydWUsInJlY3Vyc2UiOiI3IiwibWF4X3NpemUiOiIxMDQ4NTc2In19fX0=

    что я делаю не так?)
     

    Вложения:

    #3 benone, 4 апр 2017
    Последнее редактирование модератором: 5 апр 2017
  4. benone

    benone A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 апр 2014
    Сообщения:
    44
    Симпатии:
    1
    Всё, решил. Вот пресет:
    Код:
    eyJwcmVzZXQiOiJTaW1pbGFyV2ViIiwidmFsdWUiOnsicHJlc2V0IjoiU2ltaWxh
    cldlYiIsInBhcnNlcnMiOltbIk5ldDo6SFRUUCIsIlx1MDQyMVx1MDQ0Mlx1MDQz
    MFx1MDQzZFx1MDQzNFx1MDQzMFx1MDQ0MFx1MDQ0MiIseyJ0eXBlIjoib3ZlcnJp
    ZGUiLCJpZCI6Imdvb2RDb2RlIiwidmFsdWUiOlsyMDBdfSx7InR5cGUiOiJvdmVy
    cmlkZSIsImlkIjoicXVlcnlmb3JtYXQiLCJ2YWx1ZSI6Imh0dHBzOi8vd3d3LnNp
    bWlsYXJ3ZWIuY29tL3dlYnNpdGUvJHF1ZXJ5In0seyJ0eXBlIjoib3ZlcnJpZGUi
    LCJpZCI6InVzZXByb3h5IiwidmFsdWUiOnRydWV9LHsidHlwZSI6Im9wdGlvbnMi
    LCJpZCI6ImNoZWNrQ29udGVudCIsInZhbHVlIjoiZW5nYWdlbWVudEluZm8iLCJh
    ZGRpdGlvbmFsIjp7ImNoZWNrQ29udGVudE1hdGNoVHlwZSI6MX19LHsidHlwZSI6
    Im92ZXJyaWRlIiwiaWQiOiJ0aW1lb3V0IiwidmFsdWUiOiIxMCJ9XV0sInJlc3Vs
    dHNGb3JtYXQiOiIkcXVlcnk7JHAxLnRyYWZmaWNcXG4iLCJyZXN1bHRzU2F2ZVRv
    IjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6IiRkYXRlZmlsZS5mb3JtYXQoKS50
    eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIs
    InF1ZXJpZXNGcm9tIjoidGV4dCIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1
    bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJp
    dGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxk
    ZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVs
    cyI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwi
    ZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjp0cnVl
    LCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIiLCJxdWVyeUJ1
    aWxkZXJzIjpbXSwicmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLCJkYXRh
    Il0sInR5cGUiOiJ4cGF0aCIsInhwYXRoIjoiLy9zcGFuW2NvbnRhaW5zKEBjbGFz
    cywnZW5nYWdlbWVudEluZm8tdmFsdWVOdW1iZXIganMtY291bnRWYWx1ZScpXSIs
    InRvIjoidHJhZmZpYyJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXSwicnVuVGFza09u
    Q29tcGxldGUiOm51bGwsInVzZVJlc3VsdHNGaWxlQXNRdWVyaWVzRmlsZSI6ZmFs
    c2UsInJ1blRhc2tPbkNvbXBsZXRlQ29uZmlnIjoiZGVmYXVsdCIsInRvb2xzSlMi
    OiIiLCJxdWVyaWVzIjoibW5nei5ydVxuIn0sInBhcnNlcnNDb25mUHJlc2V0cyI6
    eyJOZXQ6OkhUVFAiOnsiXHUwNDIxXHUwNDQyXHUwNDMwXHUwNDNkXHUwNDM0XHUw
    NDMwXHUwNDQwXHUwNDQyIjp7InVzZXItYWdlbnQiOiJNb3ppbGxhLzQuMCAoY29t
    cGF0aWJsZTsgTVNJRSA2LjA7IFdpbmRvd3MgTlQgNS4xOyBTVjEpIiwicXVlcnlm
    b3JtYXQiOiIkcXVlcnkiLCJoZWFkZXJzIjoiIiwiZ29vZENvZGVSZWdleCI6IiIs
    ImJyb3dzZXIiOnRydWUsInByb3h5Q2hlY2tlciI6IioiLCJnb29kQ29kZSI6IiIs
    ImRvX2d6aXAiOnRydWUsImJvZHkiOiIiLCJ0aW1lb3V0IjoiNSIsIm1heENvb2tp
    ZXMiOjE2LCJtZXRob2QiOiJHRVQiLCJ1c2Vwcm94eSI6dHJ1ZSwiYnlwYXNzQ2xv
    dWRGbGFyZSI6MSwib25seWhlYWRlcnMiOmZhbHNlLCJjb29raWVzIjoiIiwicHJv
    eHlyZXRyaWVzIjoiMTAiLCJyZXF1ZXN0ZGVsYXkiOiIwIiwicHJveHliYW5uZWRj
    bGVhbnVwIjoiMzAwIiwiZm9ybWF0cmVzdWx0IjoiJGNvZGUgJHJlYXNvblxcbiRo
    ZWFkZXJzXFxuXFxuJGRhdGEiLCJkZXRlY3RjaGFyc2V0Ijp0cnVlLCJyZWN1cnNl
    IjoiNyIsIm1heF9zaXplIjoiMTA0ODU3NiJ9fX19
     
    #4 benone, 4 апр 2017
    Последнее редактирование модератором: 5 апр 2017
  5. alexcraft

    alexcraft A-Parser Pro License
    A-Parser Pro

    Регистрация:
    6 мар 2016
    Сообщения:
    3
    Симпатии:
    0
    Потому что ты используешь:
    //span[contains(@class,'engagementInfo-valueNumber js-countValue sg_selected')]
    а в коде нет концовки: <span class="engagementInfo-valueNumber js-countValue">266.1K</span>
    Так будет работать: //span[contains(@class,"engagementInfo-valueNumber js-countValue")]
    P.S. И проверку на каптчу не забудь поставить)
     
  6. benone

    benone A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    5 апр 2014
    Сообщения:
    44
    Симпатии:
    1
    Спасибо, да, разобрался :)
     
  7. Роман Пинский

    Роман Пинский A-Parser Pro License
    A-Parser Pro

    Регистрация:
    9 фев 2018
    Сообщения:
    1
    Симпатии:
    1
    XPath Query может быть проще:
    Код:
    //span[@class='engagementInfo-valueNumber js-countValue']
    И всё работает
     
    alexcraft нравится это.

Поделиться этой страницей