1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Парсинг по признакам и запросам

Тема в разделе "Техническая поддержка", создана пользователем vipdenya, 2 ноя 2014.

  1. vipdenya

    vipdenya A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 июл 2014
    Сообщения:
    57
    Симпатии:
    9
    Подскажите, как парсить гугл или яндекс по типу хрефера.
    Т. е. есть 2 тхт файла. 1 - файл с признаками форумов, 2 - файл с кейвордами
    Нужно напарсить базу ТОЛЬКО форумов. Если можно, то скиньте скриншот
     
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    [​IMG]

    • Файл с запросами закидываем в папку queries/
    • Файл с кейвордами(например keywords.txt) закидываем в папку queries/subs/
    • Меняем формат запроса, указываем откуда брать дополнительные запросы(информация по всем макросам доступна при наведении курсора на данное поле)
    • Дополнительно делаем уникализацию спаршенных ссылок по домену и фильтрацию по признакам форумов

    Код:
    eyJwcmVzZXQiOiJGb3J1bXMgUGFyc2VyIiwidmFsdWUiOnsicGFyc2VycyI6W1si
    U0U6Okdvb2dsZSIsIjEwMDAgTGlua3MgdXNlIFByb3h5Iix7InR5cGUiOiJ1bmlx
    dWUiLCJyZXN1bHQiOlsic2VycCIsImxpbmsiXSwidW5pcXVlVHlwZSI6ImRvbWFp
    biIsInVuaXF1ZUdsb2JhbCI6dHJ1ZX0seyJ0eXBlIjoiZmlsdGVyIiwicmVzdWx0
    IjpbInNlcnAiLCJsaW5rIl0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUi
    OiJ2aWV3dG9waWNcXC5waHB8dmlld2ZvcnVtXFwucGhwfHZpZXd0aHJlYWRcXC5w
    aHB8dGhyZWFkLXxmb3J1bVxcLnBocHxzaG93dGhyZWFkXFwucGhwfGZvcnVtZGlz
    cGxheVxcLnBocHxZYUJCXFwucGx8WWFCQlxcLmNnaXx1YmJ0aHJlYWRzXFwucGhw
    fHVsdGltYXRlYmJcXC5waHB8dWx0aW1hdGViYlxcLmNnaXxpbmRleFxcLnBocFxc
    P3Nob3d0b3BpYz18dGhyZWFkc3x0b3BpY3xtZW1iZXJzfG1lbWJlclxcLnBocHxt
    ZW1iZXJsaXN0XFwucGhwfHByb2ZpbGVcXC5waHB8dXNlcmluZm9cXC5waHB8dmll
    d3RvcGljfHZpZXdmb3J1bXx2aWV3dGhyZWFkfHRvcGljfHRocmVhZHxzaG93dGhy
    ZWFkfHNob3d0b3BpY3xzaG93Zm9ydW0iLCJvcHRpb24iOiIifV1dLCJyZXN1bHRz
    Rm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz
    dWx0c0ZpbGVOYW1lIjoiJGRhdGVmaWxlLmZvcm1hdCgpLnR4dCIsImFkZGl0aW9u
    YWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1ZSI6Im5vIiwicXVlcnlGb3JtYXQi
    OlsiJHF1ZXJ5IHtzdWJzOmtleXdvcmRzfSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxz
    ZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsi
    b25BbGxMZXZlbHMiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJO
    byIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1
    bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVy
    cyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119LCJwYXJzZXJzQ29uZlByZXNldHMi
    OnsiU0U6Okdvb2dsZSI6eyIxMDAwIExpbmtzIHVzZSBQcm94eSI6eyJxdWVyeWZv
    cm1hdCI6IiRxdWVyeSIsInBhcnNlbm90Zm91bmQiOnRydWUsImdsIjoiIiwicGFn
    ZWNvdW50IjoiMTAiLCJkb19nemlwIjpmYWxzZSwiZG9tYWluIjoid3d3Lmdvb2ds
    ZS5jb20iLCJ0aW1lb3V0IjoiNjAiLCJ1c2Vwcm94eSI6dHJ1ZSwiYW50aWdhdGVw
    cmVzZXQiOiJkZWZhdWx0IiwiZXh0cmFxdWVyeSI6IiIsImxvY2F0aW9uIjoiIiwi
    dXNlc2Vzc2lvbnMiOnRydWUsInNlcnB0aW1lIjoiIiwibGlua3NwZXJwYWdlIjoi
    MTAwIiwiZmlsdGVyIjp0cnVlLCJzZXJwIjoiIiwidXNlYW50aWdhdGUiOmZhbHNl
    LCJwcm94eXJldHJpZXMiOiIxNSIsInJlcXVlc3RkZWxheSI6IjAiLCJwcm94eWJh
    bm5lZGNsZWFudXAiOiI2MDAiLCJmb3JtYXRyZXN1bHQiOiIkc2VycC5mb3JtYXQo
    JyRsaW5rXFxuJykiLCJyYXdkYXRhIjowLCJsciI6IiIsInVzZWNhcHRjaGFraWxs
    ZXIiOmZhbHNlLCJtYXhfc2l6ZSI6IjIwNDgwMCJ9fX19
     
    limoshkaa и vipdenya нравится это.
  3. vipdenya

    vipdenya A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 июл 2014
    Сообщения:
    57
    Симпатии:
    9
    Спасибо огромное!
     
  4. vipdenya

    vipdenya A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 июл 2014
    Сообщения:
    57
    Симпатии:
    9
    А как можно сделать фильтрацию по признакам в RegEx через файл (в файле обычный список признаков, каждый с новой строки), чтобы в ручную не разделять знаком | ?
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    никак
     
  6. vipdenya

    vipdenya A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 июл 2014
    Сообщения:
    57
    Симпатии:
    9
    а другие варианты фильтрации с использованием файла есть?
     
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    нет, условия для фильтра необходимо указывать непосредственно через интерфейс
     
  8. vipdenya

    vipdenya A-Parser Pro License
    A-Parser Pro

    Регистрация:
    25 июл 2014
    Сообщения:
    57
    Симпатии:
    9
    может подскажите как сделать фильтрацию менее рутинной. так не охота ~500 признаков прописывать через |
     
  9. coffee

    coffee A-Parser Pro License
    A-Parser Pro

    Регистрация:
    27 сен 2012
    Сообщения:
    33
    Симпатии:
    25
    погугли SEOTextEd_ru , там есть добавить в конец | и убрать перенос строки получиш строку. Ну или Notepad++ .
    Но я не уверен что ты скормиш туда 500 признаков, там вроде ограничение по символам , тогда используй этот фильтр несколько раз/
    И вроде ты запутался путаеш признаки и фильтры
     
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    500 признаков для фильтра не так много, можно заменить почти в любом редакторе(emeditor, notepad++)
    \n заменяем на |
    далее замены для экранирования метасимволов регулярных выражений:
    . на \.
    ? на \?
     
    Pchelkin, murl и Хаким нравится это.

Поделиться этой страницей