Для вступления в общество новичков и профессионалов домен-индустрии, пожалуйста нажмите здесь ...

   
 Купля-продажа и обсуждение доменных имён
        

  
Вернуться   Форум о доменах > Дизайн и развитие проектов > Программирование
Регистрация Реноме Правила форума Справка Пользователи Социальные группы Все разделы прочитаны
Программирование PHP, Perl, HTML, XHTML, CSS, JavaScript, MySQL и другие языки кодирования.

Ответ
 
Опции темы
Сегодня
от 149р за .RU
Аренда сервера
2x Intel Hexa-Core Xeon E5-2420
Всего 79 евро!

с видеокартой GeForce GTX 1080 Ti
всего 99 евро!

от 149р за .РФ Реклама на DomenForum.net
Старый 15.09.2014, 17:27   #1
SEO Специалист
 
Аватар для pastuhoff
 
Регистрация: 24.10.2005
Сообщений: 6,529
Доменные сделки: 40
Реноме: 5358
Одобрения
Спасибо (Отдано): 187
Спасибо (Получено): 315
Стрелка На чем писать паука?

Коллеги, на каком языке предпочтительнее (в плане производительности) писать многопоточный граббер контента с сайтов?
Как сильно будет влиять тип/версия ОС на производительность на одном и том-же железе?
__________________
Коллекционер доменных имен.
pastuhoff вне форума   Ответить с цитированием
Старый 15.09.2014, 20:56   #2
 
Аватар для argenta
 
Регистрация: 08.09.2013
Сообщений: 214
Доменные сделки: 16
Реноме: 657
Одобрения
Спасибо (Отдано): 83
Спасибо (Получено): 69
безобоснованно, только на личном опыте - Питон

был текстовый грабер для промышленного наполнения сплого-доров на чистом питоне + админка на php = собирал 2-3 гб в сутки чистого (очищенного от минусов и тегов) текста по ключам

скрипт стоял на vps совместно огромной пачкой доров, тянущих текст из обработанного материала, всё норм (2009-2010 гг.)
argenta вне форума   Ответить с цитированием
Старый 17.09.2014, 12:28   #3
 
Аватар для VaseninM
 
Регистрация: 15.06.2007
Сообщений: 1,413
Доменные сделки: 7
Реноме: 3992
Одобрения
Спасибо (Отдано): 30
Спасибо (Получено): 93
Отправить сообщение для VaseninM с помощью ICQ Отправить сообщение для VaseninM с помощью Skype™
Ну если жесткие требования к производительности, то, наверное, на си (любом)))
__________________
Форум профессиональных домейнеров
Юрий Волков, Егор Свиридов. Ты следующий?
VaseninM вне форума   Ответить с цитированием
Старый 21.09.2014, 18:17   #4
 
Регистрация: 18.01.2013
Сообщений: 160
Доменные сделки: 2
Реноме: 82
Одобрения
Спасибо (Отдано): 3
Спасибо (Получено): 11
На питоне, есть такая штука https://blog.scraperwiki.com/
__________________
Купить Google Apps Free можно здесь:http://www.gapps.ga
parrotnet вне форума   Ответить с цитированием
Старый 25.09.2014, 14:11   #5
 
Регистрация: 15.12.2011
Сообщений: 246
Доменные сделки: 0
Реноме: 70
Одобрения
Спасибо (Отдано): 14
Спасибо (Получено): 44
Ну, написал вертикальную поисковую систему ))
По опыту, такие варианты:
1) Adobe AIR.
Гибкая штука на Flash платформе (ActionScript)
Самый главный плюс простота и встроенный браузер на webkit по которому можно через JavaScript исследовать DOM-дерево веб-страницы.

Один минус, из за которого пришлось отказаться, проблема с кривыми ssl сертификатами или же если http переадресовывет на https (не помню точно дополнительные обстоятельства), то AIR ругнется и пока не нажать на кнопку Allow мышкой, так и будет стоять.

Adobe уже забили на Flash и потому не фиксят баги, но тем не менее если индекс определённых "прямых" сайтов - само то. AIR все что угодно умеет.


2) Java/C# всё аналогично вышенаписанному. В C# аналогичный HTML движок на IE и тоже может DOM-дерево исследовать + в IE (и только в нём) огромный плюс он может кликать по кнопкам, есть сайты на JS где только по клику какой-то контент откроется

3) PHP
Все проблемы решить удалось, с теми же ssl. Единственно одну DOM библиотеку пришлось самостоятельно доработать, т.к. автор не активно фиксит баги и даже мои исправления пока не внёс ))

Требования ко всем вариантам: Linux/Windows VPS (512 мб).
Ну мы сейчас так делаем, в DO просто размножаем сервера, клоны создаём, 10-20 серверов.

добавлено через 37 минут
Поисковых роботов лучше всего хостить в США, некоторые идиоты полагают, что к примеру из Канады идут только хакеры, и блочат эти страны, даже UK блочат.
США ни разу не видел чтобы блочили, видимо думают что Гугл то только оттуда заходит.

Чтобы эта кипа серверов работала, нужен таск менеджер, если свой не писать, то можно Amazon SQS использовать. Туда задания закидывать, и если один робот взял сайт на индекс, то SQS не выдаст это задание другому в течении 2 минут к примеру.

У нас этот поисковик пока только на Gulf регион работает (Эмираты, Катар, Саудовская Аравия), поэтому добавляется проблема с кривыми арабским и английскими кодировками сайтов, многие веб мастера не правильно их указывают.
Webkit решает эту проблему, даже если мега кривая он сам её раскодирует, на PHP приходится кучу тестов производить чтобы подправить.

Вот такой примерно опыт удалось собрать )))

Последний раз редактировалось MotorPl; 25.09.2014 в 14:48. Причина: Добавлено сообщение
MotorPl вне форума   Ответить с цитированием
Старый 26.09.2014, 02:26   #6
 
Регистрация: 15.12.2011
Сообщений: 246
Доменные сделки: 0
Реноме: 70
Одобрения
Спасибо (Отдано): 14
Спасибо (Получено): 44
Если нужна помощь с поисковиками, то в ЛС пишите.
MotorPl вне форума   Ответить с цитированием
Старый 24.11.2014, 03:10   #7
 
Аватар для mijgan
 
Регистрация: 17.01.2009
Сообщений: 1,153
Доменные сделки: 19
Реноме: 1954
Одобрения
Спасибо (Отдано): 90
Спасибо (Получено): 98
Отправить сообщение для mijgan с помощью ICQ
Если ещё актуально, то можно попробовать nodeJS

http://www.storminthecastle.com/2013...un-and-profit/

будет удобно парсить контент, да и по скорости вроде норм.
__________________
turistka.com
parij.com cdn24.com oblako.net | NiceDot.com - всё начинается с хорошего домена!
mijgan вне форума   Ответить с цитированием
Ответ



Реклама

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 
Опции темы
Закладки Добавить Тема в закладки

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Текущее время: 21:31. Часовой пояс GMT +4.