1. Этот сайт использует файлы cookie. Продолжая пользоваться данным сайтом, Вы соглашаетесь на использование нами Ваших файлов cookie. Узнать больше.
  2. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Подскажите как парсить базу для хрумера по признакам

Тема в разделе "Техническая поддержка", создана пользователем S10n4eg, 27 авг 2013.

  1. S10n4eg

    S10n4eg A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    26 авг 2013
    Сообщения:
    15
    Симпатии:
    0
    Здравствуйте вчера купил хрумер сижу разбираюсь) Вот настройки какие я сделал для парсера:
    [​IMG]
    Настройки для парсинга:
    [​IMG]
    В результате я напарсил из 160 признаков 3000 доменов вот такого вида:
    Код:
    http://www.dnewmanmd.org/qa/index.php?qa=28822&qa_1=bbs-0755lexus-com-viewthread-php-tid-809547&extra
    http://www.freeknowledge4u.com/showthread.php?9387-99sr.com-bbs-viewthread.com-blogs-viewstory-423429-http&p=13863
    http://citi-build.com/forum/m/2311247/viewthread/2187876-team-fortress-2-server-join-us.
    http://www.doublefine.com/forums/viewthread/3929/
    http://www.on9g.com/en/viewthread.php?tid=16567
    http://www.watthasung.com/wat/viewthread.php?tid=680
    http://forum.joyopark.com/viewthread.php?tid=2768&extra=page=1
    http://www.supercars.net/PitLane?viewThread=y&gID=0&fID=2&tID=111663
    http://www.starwraith.com/forum/viewthread.php?tid=8405
    http://chinapic.people.com.cn/forum.php?mod=viewthread&tid=4966741
    http://www.essentialdayspa.com/forum/viewthread.php?tid=11902
    
    Как добыть больше доменов и правильного ли они вида? Ну и вообще я все правильно делаю?
     
    #1 S10n4eg, 27 авг 2013
    Последнее редактирование модератором: 4 июл 2017
  2. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    Щелкни на иконку с инструментом и добавь опцию Parse all results - автоматически размножит запросы и ты получишь гораздо больше результатов
     
    S10n4eg нравится это.
  3. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    +советую подбирать признаки без операторов inurl и подобных - т.к. это значительно замедляет парсинг
     
    S10n4eg нравится это.
  4. S10n4eg

    S10n4eg A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    26 авг 2013
    Сообщения:
    15
    Симпатии:
    0
    Спасибо за ответы) еще вот интересует такой вопрос, получилось много ссылок у меня примерно 800 тысяч уникальных теперь незнаю как привести их к виду,что бы можно было добавить в базу хрумера, вот такого вида получил ссылки:
    Код:
    http://www.marketday.com/
    http://www.pizzamaking.com/dough_calculator.html
    http://www.dailygrail.com/stream
    http://www.codesynthesis.com/projects/xsd/documentation/cxx/tree/manual/
    http://www.vonage.com/tos
    http://www.likwidgames.com/topUsers.php
    http://www.ukra.org.uk/records/h-class
    http://www.dailygazette.com/new_subscription/
    http://www.rrsport.co.uk/forum/post353798.html
    http://www.uotd.org/show_country.py?country=43&offset=50
    http://friendsfactory.info/profile.php?user=ady007
    http://www.czestochowa.us/content/view/14/28/
    http://www.sketch-a-day.com/
    https://www.myadt.com/faq.jsp
    http://dailyoftheday.com/
    http://www.overtherainbowtoeurope.eu/?q=node/116
    http://help.madmoo.com/en_EN/lady-popular.html
    https://spogo.co.uk/community/stories
    http://www.i-ready.com/
    http://www.adylevy.com/index.php/category/general/
    http://olfschool.net/
    http://www.seashepherd.org/
    http://ohhappyday.com/
    http://lady.rdsor.ro/~kotro/mopho/
    http://www.thebookstoreplus.com/book/9789139585220
    http://spacial.com/sam-broadcaster
    http://www.cobiansoft.se/forum/yaf_postst1167_Backing-up-just-the-new-files-each-day.aspx
    http://www.gnat.com/
    http://www.planetwot.com/playerStats/?name=Jyrmo
    http://www.rosegardenmusic.com/
    http://addyosmani.github.io/backbone-fundamentals/
    http://www.jeffblankenburg.com/2012/11/30/31-days-of-windows-8-day-30-store/
    http://www.ourladypeace.com/
    http://thekrazycouponlady.com/
    
     
    #4 S10n4eg, 28 авг 2013
    Последнее редактирование модератором: 4 июл 2017
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    хрумер именно такие ссылки и принимает насколько мне известно :)
     
  6. S10n4eg

    S10n4eg A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    26 авг 2013
    Сообщения:
    15
    Симпатии:
    0
    спасибо)
     
  7. aquatell

    aquatell A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2012
    Сообщения:
    150
    Симпатии:
    43
    1) Меню->Инструменты->Постобработка ссылок, дальше выбираем базу которую надо привести в порядок.
    2) Меню - Удалить повторные ссылки (Удаляет дубли URL есть таковы присутсвуют)
    3) Перед запуском базу надо перемешать, чтоб нагрузка на проц шла равномерно, есть хорошая прога KeyWordKeeper 4.2.4 в ней много полезняшек для работы с большими текстовыми файлами.Качнуть можно тут _http://newox.ru/kwk.php
    Многие пишут что она с вирусом, так вот никакого там вируса нету, я ее лично отправлял в антивирусную лабораторию, даже не в одну и ответ пришел - что все чисто.
     
    S10n4eg нравится это.
  8. creck

    creck A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    18 апр 2014
    Сообщения:
    46
    Симпатии:
    7
    Если можно покажите пожалуйста картинки с настройками.
     
  9. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Присоеденяюсь.
     
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    да какие там могут быть настройки :)
    [​IMG]
     
  11. Malchishka

    Malchishka A-Parser Pro License
    A-Parser Pro

    Регистрация:
    13 сен 2013
    Сообщения:
    42
    Симпатии:
    0
    Т.е. такая конструкция излишняя? (Только тут не хватает чекбокса парсить все результаты)

    [​IMG]
     
  12. aquatell

    aquatell A-Parser Pro License
    A-Parser Pro

    Регистрация:
    8 ноя 2012
    Сообщения:
    150
    Симпатии:
    43
    Картинки с настройками чего, как добавить в базу ссылки?
     
  13. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.336
    Симпатии:
    1.791
    она не только излишняя, она не верная - нет необходимости выделять домен, т.к. часто движок который ты парсишь по признакам находится в какой либо папке
     
    mountainmaster и Malchishka нравится это.
  14. Jack

    Jack A-Parser Pro License
    A-Parser Pro

    Регистрация:
    5 июн 2017
    Сообщения:
    5
    Симпатии:
    0
    а подскажите плиз, формат запроса настройку оставляем без изменений или приписываем $query {num:1:значение} ?)
     
  15. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.372
    Симпатии:
    2.102
    Если вы хотите размножить кол-во запросов, то можно воспользоваться макросами подстановок (в т.ч. и {num}) или Parse all results.
    В противном же случае ничего не нужно приписывать.
     
    Jack нравится это.

Поделиться этой страницей