1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

И еще раз о парсинге контента

Тема в разделе "Техническая поддержка", создана пользователем poiskspider, 1 сен 2015.

  1. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Мне необходимо с готового списка урлов спарсить текстовые блоки определенной длины (текстовую информацию, кому как угодно).

    Результаты нужно сохранить в отдельную папку. Один текстовик равен ключевику (url), но название этого файла - titleспарсенной страницы.

    Подскажите, на скрине, все ли я правильно делаю?
    A-Parser_Advanced_SE_Parser_&_Analyze_tool_-_2015-09-01_05.01.32.png
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Вроде правильно.
     
  3. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Я почему спрашиваю. Если парсю английский контент, то название файлов корректное, а если пытаюсь спарсить русский конент, то либо файлы пустые, либо название файлов английское, явно не совпадающее с title страницы
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Ну, так выложите код пресета, несколько запросов, по которым у вас возникают вопросы, чтобы можно было протестировать. По одному скрину сложно что-то понять и помочь...
     
  5. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    eyJwcmVzZXQiOiJDb250ZW50X2Rvd2xhZGVyIiwidmFsdWUiOnsicHJlc2V0Ijoi
    Q29udGVudF9kb3dsYWRlciIsInBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0
    b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMi
    LCJ0ZXh0Il0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdc
    XGRdezYwLH1bIT8uXSIsIm9wdGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi
    aWQiOiJtaW5ibG9ja2xlbmd0aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3Vz
    dG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+
    XSopPC90aXRsZT4iLCJyZWdleFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0
    IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJ0aXRsZSJdfV1dLCJyZXN1bHRz
    Rm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz
    dWx0c0ZpbGVOYW1lIjoidGV4dC8ke3AxLnRpdGxlfS50eHQiLCJhZGRpdGlvbmFs
    Rm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijpb
    IiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJp
    ZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNl
    LCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0
    aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlx
    dWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIi
    LCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNC
    dWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119fQ==


    http://www.championat.com/football/news-2233125-kuban--cska-videotransljacija-matcha-30-avgusta.html
    http://www.footballtop.ru/news/zenit-krasnodar-pryamaya-translyaciya-smotret-onlayn-15-08-2015-po-kanalu-nash-futbol
    http://www.eurosport.ru/all-sports/story_sto4872372.shtml
    http://rus.postimees.ee/3305585/smotrite-v-subbotu-s-kommentariem-na-russkom-sillamjaje-prinimaet-infonet
    http://www.infpol.ru/glavnye-novosti/item/14305-viktor-gusev-mozhet-byt-ya-ne-tuda-zakhodil-i-ne-tam-smotrel.html
    http://www.eurofootball.ru/news/51498/internettv-laola1tv-pokazhet-vse-matchi-futbolnoy-bundesligi-besplatno
    http://bestgoal.tv/news/22159/manchester-siti-chelsi-smotret-onlajn-translyatsiyu-matcha.html
    http://ianews.ru/articles/65931/

    Результат - пустая папка, ничего не спарсилось, хотя бывает, что создает просто пустые текстовые файлы
     
    #5 poiskspider, 1 сен 2015
    Последнее редактирование модератором: 1 сен 2015
  6. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    Все вполне нормально парсится. Правда в ваш пресет лучше добавить 2 Конструктора результатов:
    [​IMG]
    В итоге получим такое:
    [​IMG]
    Также в пресет лучше прописать нужный юзерагент, чтобы не было такого, как последний файл.
    Насчет содержания файлов. К примеру, по ссылке http://www.championat.com/football/news-2233125-kuban--cska-videotransljacija-matcha-30-avgusta.html - нет ни одного текста, который был бы больше 500 символов и матчился вашей регуляркой. Если вообще убрать фильтр и поставить Min block length = 5, то получим кучу текста (аж 14 Кб). Поэтому пересмотрите требования к тексту.
     
  7. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    дельные советы даете!
    Хотелось бы уточнить, что всетаки дают эти дополнительные конструкторы результата?
    И по поводу минимального блока я думаю тут правильно ставить 500 символов, это дает на выходе более качественный и цельный контент, более информативные статьи

    Упсс!! Что то у меня всеравно не парсится с такими данными, пишет в логах вот такую фигню: "
    http://www.footballtop.ru/news/zeni...otret-onlayn-15-08-2015-po-kanalu-nash-futbol
    Results collector: Bad results filename "results/text/Air, France. Как самое дорогое ТВ стало лучшим в мире - Все виды спорта - Eurosport.txt" at build/core.to_build.pl line 4276.
    "
    Что это может быть подскажите?
     
  8. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    http://a-parser.com/wiki/result-builder/
    В этом примере преобразовываются HTML- сущности и заменяется символ "/" на "_".
    Вам виднее...
    Имя файла содержит недопустимые файлы. Проверяйте что у вас в title и, если есть недопустимые символы - заменяйте их с помощью Конструктора результатов. Например "|".
     
  9. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Что я не пойму, я парсю теме же данными что и вы (выше код пресета и урл задания) и у вас абсолютно все спарсилось, у меня же не хочет. Как так?
    А может это просто название в кирилице не поддерживается, потому что английские сайты с титле инглиш парсит без проблем.
    Хотя вы выше пробывали у вас получилось:(
     
    #9 poiskspider, 2 сен 2015
    Последнее редактирование: 2 сен 2015
  10. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Попробуй использовать последнюю версию парсера
     
  11. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    Обновился до последней версии, результата это не дало!!! Не хочет он парсить у меня с кирилическим названием файла, папка с результатом пустая, в ней только присутствует один текстовый файл с названием "NONE" 0 кб
    В логах пишет новую ошибку "tls: undefined socket at build/core.to_build.pl line 3612."
    Давайте решим этот вопрос
     
  12. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    OS какая? какая файловая система?
     
  13. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    OS Win 2012 система NTFS
     
  14. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.545
    Симпатии:
    2.163
    По какому запросу у вас не работает?
    [​IMG]
     
  15. poiskspider

    poiskspider A-Parser Pro License
    A-Parser Pro

    Регистрация:
    30 апр 2014
    Сообщения:
    86
    Симпатии:
    11
    eyJwcmVzZXQiOiJDb250ZW50X2Rvd2xhZGVyIiwidmFsdWUiOnsicHJlc2V0Ijoi
    Q29udGVudF9kb3dsYWRlciIsInBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0
    b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMi
    LCJ0ZXh0Il0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdc
    XGRdezYwLH1bIT8uXSIsIm9wdGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi
    aWQiOiJtaW5ibG9ja2xlbmd0aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3Vz
    dG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+
    XSopPC90aXRsZT4iLCJyZWdleFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0
    IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJ0aXRsZSJdfSx7InR5cGUiOiJv
    dmVycmlkZSIsImlkIjoidXNlci1hZ2VudCIsInZhbHVlIjoiWyUgdG9vbHMudWEu
    cmFuZG9tKCkgJV0ifV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJl
    c3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoidGV4dC8ke3Ax
    LnRpdGxlfS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlx
    dWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVz
    IjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlv
    bnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVy
    YXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNl
    fSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpm
    YWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVl
    cnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVycyI6W3sic291cmNlIjpbMCwi
    dGl0bGUiXSwidHlwZSI6ImRlY29kZUh0bWwiLCJ0byI6InRpdGxlIn0seyJzb3Vy
    Y2UiOlswLCJ0aXRsZSJdLCJ0eXBlIjoic3RyaW5nUmVwbGFjZSIsInNlYXJjaCI6
    Ii8iLCJyZXBsYWNlIjoiXyIsInRvIjoidGl0bGUifV0sImNvbmZpZ092ZXJyaWRl
    cyI6W119fQ==

    У меня результат - пустая папка text
    Скрин лога:
    1.jpg
     
  16. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.794
    Напиши мне по любому контакту Поддержка, необходим доступ через Team Viewer
     

Поделиться этой страницей