Sunday, March 25, 2007

Поиск mp3 файлов доступных для скачивания

Начинаю работу над новым проектом - сервис, предоставляющий
пользователям возможность поиска mp3 файлов, доступных для скачивания (конечная ссылка - сам mp3 файл).

Сервис будет написан на Perl.
Первоначально бля поиска будет использоваться google search engine.
В дополнитение предполагается предоставление технической информации о mp3 файле (продолжительность, битрейт, возможно что-то еще), возможность прослушать файл.

Это то, что необходимо сделать в первую очередь, в дальнейшем список сервисов будет расти.

Сейчас вплотную занимаюсь составлением списка сервисов, необходимых библиотек, подбором домена - т.е. организаторской работой.

Если у кого-то есть какие-либо пожелания (что бы Вы хотели увидеть на данном сервисе) - welcome to comments.

2 комментария(ев):

Alexey said...

про гугл забудь - если бы они хотели давать ссылки на mp3 файлы, они бы это сделали. а так - фиг ты выйдешь на то, что тебе нужно. подсчитай количество ресурсов, необходимое для тупого рекурсивного перебора страниц в поисках файлов mp3 - получится вполне человеческие цифры. далее - дело техники.

другое дело, что многих вещей на www просто нету, а если и есть - но вполне могут быть не слинкованы ниоткуда - никто не хочет преследования медиа-компаниями. это раз. все это есть в пиринге. это два. если это заработает, первые, кто этим заинтересуется, смотри пункт один, что накроет весь проект.

Alno said...

Из пожеланий:

Интересна была бы возможность кэшировать некоторые файлы на сервере, например, самые популярные + некоторое число последних.

По реализации:

В возможности использования гугла напрямую есть некоторые сомнения, при ручном поиске не так быстро получается найти ссылку. Скорее всего, придется так или иначе писать бота, сканирующего сайт. Результаты гугла, наверное, можно использовать как отправную точку.

Кстати, как планируется сервис? Проиндексировать какие-то сайты, или же осуществлять новый поиск при каждом запросе?

В первом случае необходимо достаточное количество ресурсов для поддержания большого индекса в актуальном состоянии.

Во втором будет сильно страдать время ответа на запрос пользователя.

Или что-то другое?