1. Вступайте в наш Telegram чат: https://t.me/a_parser Нас уже 2600+ и мы растем!
    Скрыть объявление

Падает парсер при использовании HTML::TextExtractor

Тема в разделе "Техническая поддержка", создана пользователем capturis, 18 авг 2016.

  1. capturis

    capturis A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 июн 2014
    Сообщения:
    14
    Симпатии:
    0
    Собираю текст в отдельные файлы. Пример файла запросов:
    essay topic about education;http://www.mightystudents.com/
    essay topic about education;http://www.argumentativeessaytopic.com/
    essay topic about education;http://ed.sc.gov/
    essay topic about education;http://homeworktips.about.com/od/essaywriting/a/argumenttopics.htm
    essay topic about education;http://www.professays.com/essay/choosing-the-topic/
    essay topic about education;http://essays.expert/
    essay topic about education;http://www.ielts-blog.com/ielts-wri...ts-essay-topic-computers-instead-of-teachers/
    essay topic about education;http://www.essaywritingservices.com/
    essay topic about education;http://www.gallaudet.edu/tip/englis...ing-and-revising/essay-topic-suggestions.html
    essay topic about education;http://homeworktips.about.com/od/topics/
    unsung hero my life essay;http://www.123helpme.com/search.asp?text=unsung+hero
    unsung hero my life essay;http://www.stageoflife.com/Who_Is_Your_Hero.aspx
    unsung hero my life essay;http://www.stageoflife.com/Default.aspx?tabid=72&g=posts&t=1062
    unsung hero my life essay;http://myhero.com/teachersroom/lessonview.asp?id=9
    unsung hero my life essay;http://www.theatlantic.com/technology/archive/2013/12/the-shipping-container/281888/
    unsung hero my life essay;http://publicdomainreview.org/2015/10/14/richard-spruce-and-the-trials-of-victorian-bryology/
    unsung hero my life essay;http://greatergood.berkeley.edu/article/item/what_makes_a_hero/
    unsung hero my life essay;http://www.wikihow.com/Write-an-Essay-in-Under-30-Minutes
    unsung hero my life essay;http://www.eslpod.com/cellphone.xml
    unsung hero my life essay;http://blog.richmond.edu/heroes/
    Пресет:
    Код:
    eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
    InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
    cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9LHsi
    dHlwZSI6ImZpbHRlciIsInJlc3VsdCI6WyJ0ZXh0cyIsInRleHQiXSwiZmlsdGVy
    VHlwZSI6InJlbWF0Y2giLCJ2YWx1ZSI6IlsgXFwtJiw6O1xcd1xcZF17NTAsfVsh
    Py5dIiwib3B0aW9uIjoiaSJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJtaW5i
    bG9ja2xlbmd0aCIsInZhbHVlIjoiMzAwIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJp
    ZCI6InF1ZXJ5Zm9ybWF0IiwidmFsdWUiOiIkcXVlcnkubGluayJ9XV0sInJlc3Vs
    dHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJy
    ZXN1bHRzRmlsZU5hbWUiOiJ1bml2ZXJzaXR5L3NuaXBwZXRzXzUwMGsvJHtxdWVy
    eS5rZXl9LnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1
    ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJmaWxlIiwicXVlcnlGb3JtYXQiOlsiJHF1
    ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6
    ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1
    ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwicXVlcnlCdWlsZGVyc09u
    QWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6
    ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlv
    bnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIi
    LCJxdWVyeUJ1aWxkZXJzIjpbeyJzb3VyY2UiOiJxdWVyeSIsInR5cGUiOiJzdHJp
    bmdTcGxpdCIsInNlcGFyYXRvciI6IjsiLCJ0byI6WyJrZXkiLCJsaW5rIl19XSwi
    cmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLFsidGV4dHMiLCJ0ZXh0Il1d
    LCJ0eXBlIjoicmVtb3ZlSHRtbCIsImFycmF5IjoidGV4dHMiLCJ0byI6InRleHQi
    fSx7InNvdXJjZSI6WzAsWyJ0ZXh0cyIsInRleHQiXV0sInR5cGUiOiJkZWNvZGVI
    dG1sIiwiYXJyYXkiOiJ0ZXh0cyIsInRvIjoidGV4dCJ9XSwiY29uZmlnT3ZlcnJp
    ZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUiOm51bGwsInVzZVJlc3VsdHNGaWxl
    QXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRhc2tPbkNvbXBsZXRlQ29uZmlnIjoi
    ZGVmYXVsdCIsInRvb2xzSlMiOiIiLCJxdWVyaWVzRmlsZSI6WyJyZXN1bHRzL3Vu
    aXZlcnNpdHkvNTAway50eHQiXX19
    После старта задания запускаются какие-то левые дополнительные 2-3 копии апарсера, грузящие процессор, но ничего не делающие. Через некоторое время парсер падает. При выключении парсера, эти дополнительные процессы остаются работать. Система:
    uname -a
    Linux komp 3.19.0-32-generic #37~14.04.1-Ubuntu SMP Thu Oct 22 09:41:40 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
    Версия парсера 1.1.619
     
  2. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Покажите лог aparser.log
     
  3. capturis

    capturis A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 июн 2014
    Сообщения:
    14
    Симпатии:
    0
    Aug 18 13:42:42.66507 Start ProxyChecker anon
    Aug 18 13:42:47.01704 A-Parser v1.1.619-linux started, tasks: 29 / 147, memory total: 14014 MB, available: 12151 MB
    Aug 18 13:43:12.22926 starting task #1794 threads: 200
    Aug 18 13:43:13.45013 loading before not loaded iterator
    Aug 18 13:43:13.45717 resuming results/university/500k.txt at 134558 line
    Aug 18 13:43:15.49704 long parsing(0.10885214805603): HTML::TextExtractor::0, query: http://verobeachflash.com/calendar/
    Aug 18 13:43:16.72989 long parsing(0.19556713104248): HTML::TextExtractor::0, query: http://www.shmoop.com/video/playlists/
    Aug 18 13:43:19.42158 long parsing(0.102799892425537): HTML::TextExtractor::0, query: http://nomediakings.org/doityourself/doityourself_book_press.html
    Aug 18 13:43:23.25736 long parsing(0.11865496635437): HTML::TextExtractor::0, query: https://www.coursehero.com/file/13615401/Organizational-Behavior-1/
    Aug 18 13:43:30.08494 long parsing(0.111089944839478): HTML::TextExtractor::0, query: http://www.w3.org/TR/wai-aria-practices/
    Aug 18 13:43:30.81035 long parsing(0.114274978637695): HTML::TextExtractor::0, query: http://boredofstudies.org/view.php?course=6
    Aug 18 13:43:31.6918 long parsing(0.129531145095825): HTML::TextExtractor::0, query: https://eere-exchange.energy.gov/
    Aug 18 13:43:33.77178 long parsing(0.146065950393677): HTML::TextExtractor::0, query: http://www.clarkprosecutor.org/html/links/dplinks.htm
    Aug 18 13:43:35.12543 long parsing(0.102803945541382): HTML::TextExtractor::0, query: https://en.wikipedia.org/wiki/Latin_words
    Aug 18 13:43:36.3884 long parsing(0.195831060409546): HTML::TextExtractor::0, query: http://ahealedplanet.net/america.htm
    Aug 18 13:43:37.0951 long parsing(0.268581867218018): HTML::TextExtractor::0, query: http://www.lib.berkeley.edu/MRC/Comedyfilm.html
    Aug 18 13:43:37.33959 long parsing(0.118494033813477): HTML::TextExtractor::0, query: http://tvtropes.org/pmwiki/index_report.php
    Aug 18 13:43:38.26995 long parsing(0.105020046234131): HTML::TextExtractor::0, query: http://seniorlearn.org/bookclubs/archives/fiction/YellowWallpaper.htm
    Aug 18 13:43:42.04733 long parsing(0.105370044708252): HTML::TextExtractor::0, query: http://verobeachflash.com/calendar/
    Aug 18 13:43:43.80739 long parsing(0.148434162139893): HTML::TextExtractor::0, query: http://www.newhorizonscholarsthane.com/circulars_15-16.html
    Aug 18 13:43:45.68644 long parsing(0.119859933853149): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/l...n-essay-concerning-human-understanding-part-1
    Aug 18 13:43:46.06571 long parsing(0.114058017730713): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...eek-05-can-capitalism-bring-inclusive-growth/
    Aug 18 13:43:49.55286 long parsing(0.212145090103149): HTML::TextExtractor::0, query: http://ebook.biz/Free_eBooks
    Aug 18 13:43:50.36526 long parsing(0.269775152206421): HTML::TextExtractor::0, query: http://www.beaconlearningcenter.com/lessons/AllLessons.asp
    Aug 18 13:43:52.49068 long parsing(0.207550048828125): HTML::TextExtractor::0, query: http://www.toolband.com/news/news_archive.php
    Aug 18 13:43:54.0733 long parsing(0.316740989685059): HTML::TextExtractor::0, query: http://library.liu.edu/cwpost/these...tment&searchterm=*&sortcol=author&sortdir=ASC
    Aug 18 13:43:54.23278 long parsing(0.137162923812866): HTML::TextExtractor::0, query: http://www.nps.edu/Academics/GeneralCatalog/414.htm
    Aug 18 13:44:02.40581 long parsing(0.152131080627441): HTML::TextExtractor::0, query: http://todayinsci.com/QuotationsCategories/R_Cat/Research-Quotations.htm
    Aug 18 13:44:04.41437 long parsing(0.330596923828125): HTML::TextExtractor::0, query: http://digitalcommons.unl.edu/dissertations/
    Aug 18 13:44:05.40166 long parsing(0.135236024856567): HTML::TextExtractor::0, query: http://www.science20.com/stars_planets_life/calculating_odds_life_could_begin_chance
    Aug 18 13:44:07.43724 long parsing(0.161668062210083): HTML::TextExtractor::0, query: http://linguistlist.org/pubs/journals/browse-journals.cfm
    Aug 18 13:44:07.94133 long parsing(0.262712001800537): HTML::TextExtractor::0, query: http://library.duke.edu/rubenstein/findingaids/guide/
    Aug 18 13:44:09.49017 long parsing(0.148548126220703): HTML::TextExtractor::0, query: http://www.jchiappalone.com/
    Aug 18 13:44:09.66378 long parsing(0.102283000946045): HTML::TextExtractor::0, query: http://www.myindiclub.com/music_entertainment.aspx?lang=2&lbl=254&Album=100 PERCENT LOVE
    Aug 18 13:44:12.78249 long parsing(0.12321400642395): HTML::TextExtractor::0, query: http://www.theapprenticedoctor.com/how-to-become-a-medical-doctor-gp/
    Aug 18 13:44:17.32862 long parsing(0.144598960876465): HTML::TextExtractor::0, query: http://marc.info/?l=enlightenment-svn&m=122295103026208
    Aug 18 13:44:17.68885 long parsing(0.129266023635864): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/tocqueville-democracy-in-america-historical-critical-edition-vol-1
    Aug 18 13:44:19.42454 long parsing(0.173758029937744): HTML::TextExtractor::0, query: http://www.cdc.gov/niosh-rtecs/reference.html
    Aug 18 13:44:20.43768 long parsing(0.116137981414795): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...6-week-07-technology-cannot-replace-manpower/
    Aug 18 13:44:20.62361 long parsing(0.127382040023804): HTML::TextExtractor::0, query: http://boredofstudies.org/view.php?course=6
    Aug 18 13:44:21.00287 long parsing(0.30426812171936): HTML::TextExtractor::0, query: http://library.liu.edu/cwpost/theses/thesisview.asp?searchcol=department&searchterm=*&
    Aug 18 13:44:23.05932 long parsing(0.118159055709839): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...k-09-dreams-which-should-not-let-india-sleep/
    Aug 18 13:44:24.54839 long parsing(0.107020854949951): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/ferguson-an-essay-on-the-history-of-civil-society
    Aug 18 13:44:25.11971 long parsing(0.182640075683594): HTML::TextExtractor::0, query: http://www.science.gov/topicpages/m/matlab-based+simulation+tool.html
     
  4. Support

    Support Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    16 мар 2012
    Сообщения:
    4.547
    Симпатии:
    2.164
    Это же не весь лог, правильно? Залейте весь лог на любой обменник и дайте ссылку.
     
  5. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    как понять "какие-то левые"? это многоядерная обработка результатов
     
  6. capturis

    capturis A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 июн 2014
    Сообщения:
    14
    Симпатии:
    0
    Лог я почистил, чтобы ничто лишнее не мешало. http://fracton.rgho.st/6prjC6npj
    Падения пока воспроизвести не удалось, но на вопрос что значит "какие-то левые" готов развернутый ответ:
    [​IMG]
    Это при том, что в настройках указано использовать 6 ядер и в процессоре их 6. Кроме того скрин сделан в момент, когда в парсере активных заданий не было!
    Такая картина получается следующим образом. При запуске парсера без активных заданий все процессы "aparser" показывают загрузку 0. После запуска задания HTML::TextExtractor, получается такая картина:
    [​IMG]
    То ядро, которое действительно работает, а не делает вид, легко узнать по количеству потребляемой памяти.
    Выключаем парсер через веб интерфейс:
    [​IMG]
    Вот они "какие-то левые" остались.
    И при повторном включении получается то что на первом скрине. То есть процессов добавилось еще. Я не знаю, что они делают, но процессор работает. Это напрягает даже больше чем падения.
     
  7. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    необходим полный файл запросов для воспроизведения проблемы
     
  8. capturis

    capturis A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 июн 2014
    Сообщения:
    14
    Симпатии:
    0
    Запросы: http://fracton.rgho.st/private/64VqFTPgm/6252293e587935bc6e9dd12d5c77f192
    На данный момент симптомы такие. При запуске задания после перезагрузки парсера пишет указанное количество активных потоков, но количество готовых запросов не изменяется. Процессор шумит на все ядра указанные в настройках. При попытке перезапуска задания, получается следующее:
    [​IMG]
     
  9. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    2 раза прогнал без ошибок, может быть во время работы что то дополнительное делаешь? например меняешь кол-во ядер CPU, или другие настройки? сколько активных заданий выполняется?
     
  10. capturis

    capturis A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 июн 2014
    Сообщения:
    14
    Симпатии:
    0
    Сначала еще SE::Bing работал, но когда начались проблемы, только текстэкстрактор запускал. Кол-во ядер CPU менял, больше ничего.
     
  11. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    менял в процессе работы задания или до этого?
     
  12. capturis

    capturis A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 июн 2014
    Сообщения:
    14
    Симпатии:
    0
    Только после того, как начался этот головняк. Не помню точно, вроде бы останавливал сначала. Попробую в новую папку переустановить, с нуля так сказать. Позже отпишусь.
     
  13. capturis

    capturis A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 июн 2014
    Сообщения:
    14
    Симпатии:
    0
    Скачал в новую папку. Импортировал пресет. Поставил 6 ядер CPU в настройках. Запустил парсинг по тому же файлу запросов. После завершения 140000 запросов активно использовали проц 4 процесса. Остановил задание - два процесса остались с нагрузкой. Выключил парсер через веб интерфейс - эти джва так и висят и якобы что-то считают. Результаты не добавляются, понятное дело.
     
  14. Forbidden

    Forbidden Administrator
    Команда форума A-Parser Enterprise

    Регистрация:
    9 мар 2013
    Сообщения:
    3.337
    Симпатии:
    1.795
    покажи скрин основных настроек парсера и настроек потоков
     
  15. capturis

    capturis A-Parser Enterprise License
    A-Parser Enterprise

    Регистрация:
    29 июн 2014
    Сообщения:
    14
    Симпатии:
    0
    Выше писал, только кол-во ядер поменял после установки в новую папку.
    [​IMG]
    [​IMG]
     

Поделиться этой страницей