![]() |
Быстрый переход |
|
Программирование PHP, Perl, HTML, XHTML, CSS, JavaScript, MySQL и другие языки кодирования. |
![]() |
|
Опции темы |
![]() |
|||||
![]() |
|
![]() |
#1 | |||
SEO Специалист
Реноме:
5645
|
![]()
Коллеги, на каком языке предпочтительнее (в плане производительности) писать многопоточный граббер контента с сайтов?
Как сильно будет влиять тип/версия ОС на производительность на одном и том-же железе?
__________________
Коллекционер доменных имен. |
|||
![]() |
![]() |
![]() |
#2 | |||
Реноме:
697
|
безобоснованно, только на личном опыте - Питон
был текстовый грабер для промышленного наполнения сплого-доров на чистом питоне + админка на php = собирал 2-3 гб в сутки чистого (очищенного от минусов и тегов) текста по ключам скрипт стоял на vps совместно огромной пачкой доров, тянущих текст из обработанного материала, всё норм (2009-2010 гг.) |
|||
![]() |
![]() |
![]() |
#4 | |||
Реноме:
86
|
На питоне, есть такая штука
__________________
Купить Google Apps Free можно здесь: |
|||
![]() |
![]() |
![]() |
#5 | |||
Реноме:
69
|
Ну, написал вертикальную поисковую систему ))
По опыту, такие варианты: 1) Adobe AIR. Гибкая штука на Flash платформе (ActionScript) Самый главный плюс простота и встроенный браузер на webkit по которому можно через JavaScript исследовать DOM-дерево веб-страницы. Один минус, из за которого пришлось отказаться, проблема с кривыми ssl сертификатами или же если http переадресовывет на https (не помню точно дополнительные обстоятельства), то AIR ругнется и пока не нажать на кнопку Allow мышкой, так и будет стоять. Adobe уже забили на Flash и потому не фиксят баги, но тем не менее если индекс определённых "прямых" сайтов - само то. AIR все что угодно умеет. 2) Java/C# всё аналогично вышенаписанному. В C# аналогичный HTML движок на IE и тоже может DOM-дерево исследовать + в IE (и только в нём) огромный плюс он может кликать по кнопкам, есть сайты на JS где только по клику какой-то контент откроется 3) PHP Все проблемы решить удалось, с теми же ssl. Единственно одну DOM библиотеку пришлось самостоятельно доработать, т.к. автор не активно фиксит баги и даже мои исправления пока не внёс )) Требования ко всем вариантам: Linux/Windows VPS (512 мб). Ну мы сейчас так делаем, в DO просто размножаем сервера, клоны создаём, 10-20 серверов. добавлено через 37 минут Поисковых роботов лучше всего хостить в США, некоторые идиоты полагают, что к примеру из Канады идут только хакеры, и блочат эти страны, даже UK блочат. США ни разу не видел чтобы блочили, видимо думают что Гугл то только оттуда заходит. Чтобы эта кипа серверов работала, нужен таск менеджер, если свой не писать, то можно Amazon SQS использовать. Туда задания закидывать, и если один робот взял сайт на индекс, то SQS не выдаст это задание другому в течении 2 минут к примеру. У нас этот поисковик пока только на Gulf регион работает (Эмираты, Катар, Саудовская Аравия), поэтому добавляется проблема с кривыми арабским и английскими кодировками сайтов, многие веб мастера не правильно их указывают. Webkit решает эту проблему, даже если мега кривая он сам её раскодирует, на PHP приходится кучу тестов производить чтобы подправить. Вот такой примерно опыт удалось собрать ))) Последний раз редактировалось MotorPl; 25.09.2014 в 14:48. Причина: Добавлено сообщение |
|||
![]() |
![]() |
![]() |
#7 | |||
Реноме:
2081
|
Если ещё актуально, то можно попробовать nodeJS
будет удобно парсить контент, да и по скорости вроде норм.
__________________
|
|||
![]() |
![]() |
![]() |
![]() |
|
![]() |
Здесь присутствуют: 1 (пользователей: 0 , гостей: 1) | |
|
|