вобщем-то проблема примерно одинаковая наблюдалась при использовании linkextractor, textextractor. заключается в том, что даже если выставить небольшое кол-во потоков, то происходит падение, в логах "Out of memory", хотя из возможных 2 гб ни разу не видел использованными больше 800 мб. что при одном, что при другом задании даже при 100 потоках виснет апарсер, а парсить текстовку в 10-15 потоков это очень долго и крайне непродуктивно. Спойлер: пресет TextExtractor eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCIyNTAgbWluLCAyMDAv MjAxLzIwMiIseyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6Im1pbmJsb2NrbGVuZ3Ro IiwidmFsdWUiOiI0MDAifSx7InR5cGUiOiJvdmVycmlkZSIsImlkIjoicHJveHly ZXRyaWVzIiwidmFsdWUiOiI1MDAwIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJpZCI6 ImZvcm1hdHJlc3VsdCIsInZhbHVlIjoiJHJlc3VsdC5mb3JtYXQoJyR0ZXh0XFxu JykifSx7InR5cGUiOiJjdXN0b21SZXN1bHQiLCJyZXN1bHQiOlsidGV4dHMiLCJ0 ZXh0Il0sInJlZ2V4IjoiKC57NzAsfSkiLCJyZWdleFR5cGUiOiJnIiwicmVzdWx0 VHlwZSI6ImFycmF5IiwiYXJyYXlOYW1lIjoicmVzdWx0IiwicmVzdWx0cyI6WyJ0 ZXh0Il19XV0sInJlc3VsdHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1Nh dmVUbyI6ImZpbGUiLCJyZXN1bHRzRmlsZU5hbWUiOiJydXRleHRsaW5rcy50eHQi LCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1 ZXJpZXNGcm9tIjoiZmlsZSIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlx dWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVy YXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJz QWZ0ZXJJdGVyYXRvciI6ZmFsc2UsInF1ZXJ5QnVpbGRlcnNPbkFsbExldmVscyI6 ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9M b2ciOiJubyIsImtlZXBVbmlxdWUiOiJhZHVsdHRleHQiLCJtb3JlT3B0aW9ucyI6 ZmFsc2UsInJlc3VsdHNQcmVwZW5kIjoiIiwicmVzdWx0c0FwcGVuZCI6IiIsInF1 ZXJ5QnVpbGRlcnMiOltdLCJyZXN1bHRzQnVpbGRlcnMiOlt7InNvdXJjZSI6WzAs WyJ0ZXh0cyIsInRleHQiXV0sInR5cGUiOiJkZWNvZGVIdG1sIiwiYXJyYXkiOiJ0 ZXh0cyIsInRvIjoidGV4dCJ9LHsic291cmNlIjpbMCxbInRleHRzIiwidGV4dCJd XSwidHlwZSI6InJlbW92ZUh0bWwiLCJhcnJheSI6InRleHRzIiwidG8iOiJ0ZXh0 In1dLCJjb25maWdPdmVycmlkZXMiOltdLCJydW5UYXNrT25Db21wbGV0ZSI6bnVs bCwidXNlUmVzdWx0c0ZpbGVBc1F1ZXJpZXNGaWxlIjpmYWxzZSwicnVuVGFza09u Q29tcGxldGVDb25maWciOiJkZWZhdWx0IiwidG9vbHNKUyI6IiIsInF1ZXJpZXNG aWxlIjpbInJ1dGV4dGxpbmtzLnR4dCJdfSwicGFyc2Vyc0NvbmZQcmVzZXRzIjp7 IkhUTUw6OlRleHRFeHRyYWN0b3IiOnsiMjUwIG1pbiwgMjAwLzIwMS8yMDIiOnsi dXNlci1hZ2VudCI6Ik1vemlsbGEvNC4wIChjb21wYXRpYmxlOyBNU0lFIDYuMDsg V2luZG93cyBOVCA1LjE7IFNWMSkiLCJxdWVyeWZvcm1hdCI6IiRxdWVyeSIsInNr aXBhbmNob3JzIjp0cnVlLCJoZWFkZXJzIjoiIiwiZ29vZENvZGVSZWdleCI6IiIs ImJyb3dzZXIiOnRydWUsImdvb2RDb2RlIjpbMjAwLDIwMSwyMDJdLCJwcm94eUNo ZWNrZXIiOiIqIiwiZG9fZ3ppcCI6dHJ1ZSwiYm9keSI6IiIsInRpbWVvdXQiOiI2 MCIsIm1heENvb2tpZXMiOiIxNiIsIm1ldGhvZCI6IkdFVCIsInVzZXByb3h5Ijpm YWxzZSwib25seWhlYWRlcnMiOmZhbHNlLCJleHRyYXF1ZXJ5IjoiIiwiY29va2ll cyI6IiIsInByb3h5cmV0cmllcyI6IjMiLCJyZXF1ZXN0ZGVsYXkiOiIwIiwicHJv eHliYW5uZWRjbGVhbnVwIjoiMzAwIiwibWluYmxvY2tsZW5ndGgiOiIyNTAiLCJy YXdkYXRhIjpmYWxzZSwiZm9ybWF0cmVzdWx0IjoiJHRleHRzLmZvcm1hdCgnJHRl eHRcXG4nKSIsImRldGVjdGNoYXJzZXQiOmZhbHNlLCJyZWN1cnNlIjoiMSIsIm1h eF9zaXplIjoiMTA0ODU3NiJ9fX19 Спойлер: лог TextExtractor Out of memory! Jun 5 20:39:34.1611 [Worker/-12908] end called, pid -12908 create template(main) at build/core.to_build.pl line 973. created template -25840 at build/core.to_build.pl line 982. Jun 5 20:39:50.26978 A-Parser v1.1.557-windows started, tasks: 4 / 478, memory total: 0 MB, available: 0 MB Jun 5 20:39:50.2729 starting task #1794 threads: 400 Jun 5 20:39:55.59116 task 1794 error Some error unknow holder task_1794 at build/core.to_build.pl line 5405. Jun 5 20:40:00.60031 starting task #1794 threads: 400 Jun 5 20:40:02.93299 loading before not loaded iterator Jun 5 20:40:02.93372 resuming queries/rutextlinks.txt at 2204 line Jun 5 20:40:09.47899 long parsing(0.101164102554321): HTML::TextExtractor::0, query: http://samlib.ru/a/ajrin_e/kolledzhwolshebstwanewversion.shtml Jun 5 20:40:11.42627 long parsing(0.154298067092896): HTML::TextExtractor::0, query: http://samlib.ru/a/aksenow_d_p/phanta2_last.shtml Jun 5 20:40:11.91642 long parsing(0.105370998382568): HTML::TextExtractor::0, query: http://samlib.ru/a/ajzenshtajn_f/0a000.shtml Jun 5 20:40:12.47446 long parsing(0.116682052612305): HTML::TextExtractor::0, query: http://samlib.ru/a/akulowa_m_a/kogda1.shtml Jun 5 20:40:12.96747 long parsing(0.180505990982056): HTML::TextExtractor::0, query: http://samlib.ru/a/aksenow_d_p/phanta1_001.shtml Out of memory! create template(main) at build/core.to_build.pl line 973. created template -4808 at build/core.to_build.pl line 982. Jun 5 20:40:57.76495 A-Parser v1.1.557-windows started, tasks: 4 / 478, memory total: 0 MB, available: 0 MB Jun 5 20:40:57.76894 starting task #1794 threads: 400 Jun 5 20:41:03.04521 loading before not loaded iterator Jun 5 20:41:03.04586 resuming queries/rutextlinks.txt at 2223 line Jun 5 20:41:12.23214 long parsing(0.128304004669189): HTML::TextExtractor::0, query: http://samlib.ru/a/akulowa_m_a/kogda1.shtml Jun 5 20:41:14.34631 long parsing(0.154627799987793): HTML::TextExtractor::0, query: http://samlib.ru/a/abwow_a_s/rpg.shtml Jun 5 20:41:14.54428 long parsing(0.144634008407593): HTML::TextExtractor::0, query: http://samlib.ru/a/afanasxew_a_w/rodnie_berega.shtml Jun 5 20:41:14.80165 long parsing(0.167317152023315): HTML::TextExtractor::0, query: http://samlib.ru/a/ajzenshtajn_f/c0001.shtml Jun 5 20:41:15.43068 long parsing(0.179273128509521): HTML::TextExtractor::0, query: http://samlib.ru/a/aksenow_d_p/phanta2_last.shtml Jun 5 20:41:15.69049 long parsing(0.208415985107422): HTML::TextExtractor::0, query: http://samlib.ru/a/aksenow_d_p/phanta1_001.shtml Jun 5 20:41:15.98376 long parsing(0.167842864990234): HTML::TextExtractor::0, query: http://samlib.ru/a/aksenow_d_p/ares001_last.shtml Jun 5 20:41:16.13192 long parsing(0.113166093826294): HTML::TextExtractor::0, query: http://samlib.ru/a/ajrin_e/shkolaskazok.shtml Jun 5 20:41:16.32116 long parsing(0.16247296333313): HTML::TextExtractor::0, query: http://samlib.ru/a/abwow_a_s/posledamalhimika.shtml Jun 5 20:41:16.75112 long parsing(0.103424072265625): HTML::TextExtractor::0, query: http://samlib.ru/a/ajrin_e/akademijatemnyhboewyhiskusstw.shtml Jun 5 20:41:17.60347 task 1794 paused ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. ResultsProcessor: skip 1794 at build/core.to_build.pl line 22963. Jun 5 20:41:45.81436 force start task 1794 Jun 5 20:41:45.81525 starting task #1794 threads: 150 Jun 5 20:41:53.02438 long parsing(0.216333150863647): HTML::TextExtractor::0, query: http://samlib.ru/a/ajrin_e/stat.shtml Jun 5 20:41:55.08965 long parsing(0.219380140304565): HTML::TextExtractor::0, query: http://samlib.ru/a/akulowa_m_a/zalechish.shtml Jun 5 20:41:56.01065 long parsing(0.172683954238892): HTML::TextExtractor::0, query: http://samlib.ru/a/aksenow_d_p/phanta1_001.shtml Jun 5 20:41:56.1902 long parsing(0.130206108093262): HTML::TextExtractor::0, query: http://samlib.ru/a/al1618/teniprerii.shtml Jun 5 20:42:00.20443 long parsing(0.209767818450928): HTML::TextExtractor::0, query: http://samlib.ru/a/aktualxnoe_i/stat.shtml Jun 5 20:42:06.87054 long parsing(0.134115934371948): HTML::TextExtractor::0, query: http://samlib.ru/a/alehin_a_w/tenewyeigry.shtml Jun 5 20:42:08.141 long parsing(0.248991012573242): HTML::TextExtractor::0, query: http://samlib.ru/a/akopow_w_a/memuar_akopov.shtml Out of memory! create template(main) at build/core.to_build.pl line 973. created template -17684 at build/core.to_build.pl line 982. Jun 5 20:42:35.26275 A-Parser v1.1.557-windows started, tasks: 4 / 478, memory total: 0 MB, available: 0 MB Jun 5 20:42:35.26604 starting task #1794 threads: 150 Jun 5 20:42:37.68257 loading before not loaded iterator Jun 5 20:42:37.68318 resuming queries/rutextlinks.txt at 2337 line Jun 5 20:42:45.66496 long parsing(0.131050109863281): HTML::TextExtractor::0, query: http://samlib.ru/a/ajrin_e/shkolaskazok.shtml Jun 5 20:42:45.82313 long parsing(0.102996110916138): HTML::TextExtractor::0, query: http://samlib.ru/a/aksenow_d_p/phanta3_01.shtml Jun 5 20:42:45.99112 long parsing(0.135666847229004): HTML::TextExtractor::0, query: http://samlib.ru/a/akulowa_m_a/kogda2.shtml Jun 5 20:42:50.71876 long parsing(0.243835926055908): HTML::TextExtractor::0, query: http://samlib.ru/a/ahmetow_b_a/part4.shtml Jun 5 20:42:51.04869 task 1794 paused Jun 5 20:43:06.40207 force start task 1794 Jun 5 20:43:06.40287 starting task #1794 threads: 100 Jun 5 20:43:27.80643 task 1794 error Some error unknow holder task_1794 at build/core.to_build.pl line 5405. Jun 5 20:43:31.34612 starting task #1794 threads: 100 Jun 5 20:43:40.57069 long parsing(0.15299916267395): HTML::TextExtractor::0, query: http://samlib.ru/a/ajla/wsebylosowsemnetak2chastx2.shtml Jun 5 20:43:43.10386 long parsing(0.130810022354126): HTML::TextExtractor::0, query: http://samlib.ru/a/abwow_a_s/posledamalhimika.shtml Jun 5 20:43:44.80417 long parsing(0.158514976501465): HTML::TextExtractor::0, query: http://samlib.ru/a/akulenko_e_w/0_rotmistr.shtml Jun 5 20:43:46.57569 long parsing(0.13689398765564): HTML::TextExtractor::0, query: http://samlib.ru/a/aksenow_d_p/ares001_last.shtml Jun 5 20:43:49.83347 long parsing(0.166814088821411): HTML::TextExtractor::0, query: http://samlib.ru/a/akulowa_m_a/astradusha.shtml Jun 5 20:43:58.96821 long parsing(0.114288806915283): HTML::TextExtractor::0, query: http://samlib.ru/a/aleksandra_o/raskop.shtml Jun 5 20:43:59.61915 long parsing(0.318317174911499): HTML::TextExtractor::0, query: http://samlib.ru/a/agarkow_a_e/1-5.shtml Jun 5 20:43:59.98663 long parsing(0.246969938278198): HTML::TextExtractor::0, query: http://samlib.ru/a/akopow_w_a/memuar_akopov.shtml Out of memory! create template(main) at build/core.to_build.pl line 973. created template -18580 at build/core.to_build.pl line 982. Jun 5 20:45:12.31892 A-Parser v1.1.557-windows started, tasks: 4 / 478, memory total: 0 MB, available: 0 MB Jun 5 20:45:12.32225 starting task #1794 threads: 100 Jun 5 20:45:14.88901 loading before not loaded iterator Jun 5 20:45:14.8898 resuming queries/rutextlinks.txt at 2544 line Jun 5 20:45:25.86578 long parsing(0.124626874923706): HTML::TextExtractor::0, query: http://samlib.ru/a/aleksandra_o/raskop.shtml Jun 5 20:45:26.94032 long parsing(0.39439582824707): HTML::TextExtractor::0, query: http://samlib.ru/a/agarkow_a_e/1-5.shtml Jun 5 20:45:30.95095 long parsing(0.124459981918335): HTML::TextExtractor::0, query: http://samlib.ru/a/aleksandra_plen/boginja.shtml Jun 5 20:45:38.09485 long parsing(0.246606111526489): HTML::TextExtractor::0, query: http://samlib.ru/a/akopow_w_a/memuar_akopov.shtml Out of memory! create template(main) at build/core.to_build.pl line 973. created template -556 at build/core.to_build.pl line 982. Jun 5 20:50:34.72695 A-Parser v1.1.557-windows started, tasks: 4 / 478, memory total: 0 MB, available: 0 MB Jun 5 20:50:34.72962 starting task #1794 threads: 100 Jun 5 20:50:36.87802 loading before not loaded iterator Jun 5 20:50:36.87848 resuming queries/rutextlinks.txt at 2621 line Jun 5 20:50:58.69088 long parsing(0.141587972640991): HTML::TextExtractor::0, query: http://samlib.ru/a/aleksandrowa_a/stat.shtml Jun 5 20:51:00.7262 long parsing(0.138837099075317): HTML::TextExtractor::0, query: http://samlib.ru/a/aleksandrowa_k_a/aprelskaya_siren.shtml Jun 5 20:51:01.3369 long parsing(0.13233494758606): HTML::TextExtractor::0, query: http://samlib.ru/a/aleksandrowich_i_i/masterskaja-1.shtml Jun 5 20:51:02.19904 long parsing(0.226983070373535): HTML::TextExtractor::0, query: http://samlib.ru/a/akopow_w_a/memuar_akopov.shtml Jun 5 20:51:23.71497 long parsing(0.147968053817749): HTML::TextExtractor::0, query: http://samlib.ru/a/aleksandrowa_o/stat.shtml Jun 5 20:51:40.00373 long parsing(0.106673002243042): HTML::TextExtractor::0, query: http://samlib.ru/a/aleksandr_s_i/udachaobrechennyh.shtml Jun 5 20:52:01.41398 long parsing(0.111217975616455): HTML::TextExtractor::0, query: http://samlib.ru/a/alekseenko_o_s/stat.shtml Jun 5 20:52:08.75141 long parsing(0.11623215675354): HTML::TextExtractor::0, query: http://samlib.ru/a/alekseewa_j/larinndoc.shtml Jun 5 20:52:11.02714 long parsing(0.172095060348511): HTML::TextExtractor::0, query: http://samlib.ru/a/alekseewa_j/stat.shtml линки, с которых тексты парсятся: http://top-rated.pw/sklad/rutextlinks.txt версия апарсера - 1.1.557
Да ладно, это не проблема. У меня при абсолютно каждом обновлении, происходит вылет апарсера, но это не проблема, а особенность.