Есть некоторое количество книг в pdf, djvu, chm и др. Упарило бегить по каталогам и искать нужную. Подскажите какими программами пользуетесь для создания электронной библиотеки. Создание простого списка файлов - это не то. А так чтобы красиво было да с поиском и т.п. В нете посмотрел. Есть, есть разные. А хорошие то какие?
Ссылки на программы приветствуются.
пользую
dtSearch от
www.dtsearch.com
доволен...
BOOKSEER но не очень даволен
google desktop с плагинами.
Мы пользуемся Sharepoint . Для группы разработчиков удобно обмениваться ссылками на документы, можно устанавливать права доступа к различным библиотекам документов..
А что, "поиск" в проводнике или total commander не работает ?
Я делал двумя методами :
- простой - переименовывал файлы в соответствии с их полным названием, автором, годом и т.д. и раскидывал по подпапкам в соответствии с темой книги;
- более сложный (когда книг очень много) - каждую книгу или набор файлов - в архив, в архив - файл XML с информацией о книге/авторе/дате и т.д., потом программкой на Питоне генерируется HTML со списком книг, отсортированном по темам и алфавиту. По сравнению с BOOKSEER или базами данных преимущество в переносимости и кроссплатформенности - вся информация о книге содержится вместе с ней, работает на любых системах.
Пользуюсь Архивариусом 3000 для поиска по книжкам, статьям и документации
www.likasoft.com/ru/document-search/index.shtm
поддерживает все языки и форматы, какие только можно выдумать ;-)
shasik, ну так и я об этом же тяжком труде говорил, а Вы конкретизировали. Беда в том, что в такой ситуации, пользуясь словами автора известных первоисточников, посоветовать можно, IMHO, только одно - лучше меньше, да лучше. Т.е., ежели что выкладывать, так луше одну-две книги до нормального товарного вида довести, чем за этот же срок десяток сырцов вывалить, с которыми затем другие мучаться будут. Конечно, бывают ситуации, когда материал позарез срочно нужен - и здесь уж не до товарного вида: лишь бы разобрать можно было. Тут вот ещё какой фактор вмешивается: преобразование tiff в djvu народ почти всегда выполняет с потерями, т.е., со снижением качества. В то время как материал со сканера можно непосредственно в tiff'ах получить - и безо всяких потерь. Поэтому, за редким исключением, всю обработку лучше выполнять с оригинальных tiff'ов, а не с тех, кои из djvu выгнаны. К величайшему сожалению, на практике делать книгу в электронном виде от начала до конца выполнимо далеко не всегда: у кого-то просто нет доступа к сканеру или нужным книгам, кто-то не может свои отсканированные материалы в djvu перегнать, кто-то в принципе не применяет OCR, ибо все равно оцифровка с ошибками выполняется, а делать полную вычитку - на это времени нет. Можно, конечно, пытаться усилия объединить, однако это получается даже гораздо реже, чем одному весь процесс вести.
Относительно ручной работы. Что-то мне кажется, что и по п.3 уже должны быть наработаны методы автоматизации. Вопросы сканирования, обработки и сборки применительно к создаю электронных книг обсуждаются на многих форумах, так что если есть желание и силы заниматься этим регулярно, то, наверное, имеет смысл там потолкаться: и к уже достигнутым технологиям можно будет приобщиться, и чужие ошибки учесть.
А вот на счёт посоветовать что-нибудь получше - вопрос спорный, ибо субьективизма в нём много. Лично я использую имя файла как записи базы данных: автор(ы), название, издательство, год издания, формат/качество, количество страниц, ISBN, рубрика. Достоинства: получил файл, переименовал по форме, положил в нужный каталог - вот и вся ручная работа, ибо всё остальное можно выполнить при помощи разного рода автоматических примочек. Явный недостаток: при очень большом количестве книг, особенно незнакомых, всё ж таки желательно иметь что-нибудь типа краткого содержания или аннотации. К счастью, в последнее время стало признаком хорошего тона: если выкладываешь книгу - приведи и её характеристику. Поэтому, скачивая книгу, имеет смысл сохранить рядом и эту информацию - возможно, когда-либо это позволит не набивать её заново - т.е., примерно так, как это делает ув. umup в случае, когда книг много. Материал, так сказать, для книжного обозрения.
Удачи!
А может кто знает программу которая является универсальным контейнером для документов формата htm, pdf, doc, xls и т.д. и интегрируется в браузер?
Например, понравилась страничка, нажал кнопку и ее содержимое сохранилось во внутренней базе данных программы в соответствующей рубрике, и чтобы программа понимала большинство популярных форматов.
Сейчас для этих целей используем сервер mediaWiki с хранением файлов на фтп. Но там пока ссылку на хранилище сделаешь, 100 лет пройдет. Хочется больше драг-n-дропа.
Escorial, так ведь, IMHO, и сам файл в формате html довольно прилично может выполнять функции оболочки-контейнера. Ежели работать под Win, так там некоторые просмоторщики, напр., для djvu или pdf, могут быть интегрированы в браузер; в случае же отсутствия таковой интерации просто запускается программа, обслуживающая нужный формат, и единственное отличие второго варианта от первого - так открытие документа в новом окне. В то же время сам формат html достаточно хорошо документирован, что позволяет при минимальных навыках программирования (ну хоть на старинном Бэйсике) самостоятельно написАть программу, вполне прилично генерирующую нужный html-файл с каким-либо описанием материала и ссылкой на него на основе любых текстовых файлов, напр., в простейшем случае - на основе файла, полученного командой dir /s >Spicok_knig.txt. Т.е., сохранили Вы что-то нужное - применили вышеупомянутую команду dir - запустили этот генератор - и получили готовый к употреблению html-контейнер, в который уже внесены все свежескачанные новые материалы, разложенные по разделам. Лень проделывать все эти процедуры - приписали их в командном файле и вытащили его на ярлык или кнопку - ну, типа ОБНОВИТЬ СПИСОК.
Едиственная сложность: чтобы ссылки какой-либо информацией снабдить - эту информацию необходимо где-то взять, ибо никакой генератор самостоятельно её не создаст. Однако функцию получения подобой информации о книге из нормального имени файла или из html-файла, сопровождающего выкладку, поручить такому генератору вполне возможно. Ну, м.б., с минимальным ручным редактированием, напр., если аннотация слишком большая - указать, что из неё надо включить в описание линка.
Удачи!
Крайне прискорбно но следует отметить факт что pdftotext от GDS индексирует всего 10 тыс слов считая с начала документа. (кстати он должен отдельно сгружаться с гугл, внутри инсталяционки его нет).
Линк - http://electronix.ru/redirect.php?http://desktop.google.com/support/bin/answer.py?answer=17208&topic=11603
Господа товарищи , кто может привести параметры на другие search енДжины?
Вопрос в тему. Может кто занимался составлением классификатора по электронике?
И второй вопрос, при сортировки статей и книжек довольно часто трудно определить куда их запихнуть, поддерживает ли какой-нибудь софт создание и обработку ссылок?
Пользуюсь Greenstone http://electronix.ru/redirect.php?http://www.greenstone.org/
после прочтения статьи http://electronix.ru/redirect.php?http://itc.ua/print.phtml?ID=4548
Спасибо за ссылки .
Архивариус вроде бы есть на аваксе - 3.88. Проверю как работает. DTsearch не понравился - у меня с rar'ом проблемы вышли.
Возникла другая проблема.
Я теперь просто раскладываю книги по тематическим папкам. А проблема в том, что у меня они хранятся дома и на работе. Пополнения могут прийти и туда, и туда.
Вопрос: как их синхронизировать? А точнее чем? Т.е. я взял очередное пополнение раскидал его по папкам. Программа-синхронизатор сделала "снимок", создала update, я принес его домой/на работу, запустил такую же программу, которая подхватила этот update и сама(!) раскидала пополнение по тем же папкам. Подскажите?
У меня куча даташитов, документов Оффиса, Аcad, - все разложено по проектам. Искать вручную нужный элемент нереально. Давно пользуюсь Copernic Desktop Search. Поиск занимает секунды. Прога индексирует файлы указанных типов по содержанию. Я очень доволен. Только djvu не знаю, а PDF - очень классно обрабатывает.
а нет ли под эти задачи какого-нить _уже_придуманного_ стандарта, на основе XML ? (чтобы не выдумывать велосипед)
как я себе это представляю: каждый файл комплектуется файлом формата XML (метаданные) с идентичным названием, в котором описано всё, начиная от УДК или ISBN и MD5sum файла, заканчивая ключевыми тэгами книги (для быстрого поиска) и фото обложки в Base64.
такая децентрализованность может облегчить распространение электронных документов, каждый из которых комплектуется файлом XML (метаданные).
а для поиска/индексации использовать простую утилитку (благо сейчас XML подерживается на очень высоком уровне), которая бы просто лазила по каталогам и парсила все XML-файлы со стандартным и известным заголовком/структурой.
если библиотека _очень_большая - то как опция - сливать это в единый XML (кэш), а переиндексацию запускать оп прибытии новых документов.
BookCollector - очень нравится
_pegas_
а подробней можно?? (сайт, основные возможности, преимущества)
а то по "Book Collector" много чего гуглится..
притом гуглится очень интересного - например онлайн-каталоги книг с описанием..
в связи с этим, интересен вопрос прикрутки локальной (своей) библиотеки книг к готовым описаниям (или наоборот). например на основе ISBN
Во, только сегодня пробежало по http://electronix.ru/redirect.php?http://www.klerk.ru/soft/n/?111689:
Программа для самостоятельного создания баз данных
http://electronix.ru/redirect.php?http://www.datawasp.com/Pages/download.html
Вышел новый продукт под названием Datawasp 1.0. Этот пакет позволяет самостоятельно создать многопользовательскую систему хранения и контроля информации, используя привычный табличный интерфейс. Продукт ориентирован на организации, где создавать собственную полноценную систему на основе СУБД слишком дорого и сложно.
В Datawasp реализована иерархическая модель данных и текущее состояние пользовательского интерфейса полностью отражает иерархическую структуру данных. Кроме того, в БД можно добавить различные расчеты и отчеты. Основным преимуществом Datawasp над реляционными БД и электронными таблицами авторы считают простоту.
PS в видео демонстрации на сайте как раз пример с книгами рассматривается.
Единственное- не ясно в каком формате база и можно-ли внешние автозаполнялки/конвертеры прикручивать (ИМХО, тоже думаю, что есть что-то готовое, похожее на CDDB по книжкам, надо только найти).
Еще наткнулся на обсуждение "http://electronix.ru/redirect.php?http://www.ice-graphics.com/forumr/viewtopic.php?t=741&postdays=0&postorder=asc&start=0"
в развитии темы: наткнулся на просторах википедии вот на http://electronix.ru/redirect.php?http://ru.wikipedia.org/wiki/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:BookSources/5845905869
дело за парсером результатов поиска))
Я сначала переименовал почти все книжные файлы к виду: название книги - автор. Затем поднял на своём компе Apache+PHP+MySQL. Установил MediaWiki
и пишу ссылки и аннотации к понравившимся книгам в ней.
Каталог к книгам можно открыть и напрямую (Apache автоматически проиндексирует - главное правильно настроить).
В проиндексированном каталоге можно быстро найти книгу по названию или автору через Ctrl+F, причём с любой машины в сети
уже упоминался, до добавлю свой плюс в сторону архивариус 3000 (ссылка дана выше).
Индексирует указанные папки и дальше поиск простой как google.com - вводите ключевые слова или конкретные фразы - поиск быстр и точен.
Есть разные степени индексирования и соответственно разный объем файла индекса.
Очень помогла при написании диссертации. Жаль, что нашел ее уже на одном из последних этапов - время относительно интернет поиска с его битыми ссылками и платными статьями экономит множество.
Проиндексировал базу своей выборки статей по дисеру (2-3 гигабайта) и имеющиеся диски с журналами solid-state circuits - несколько десятков гигабайт. После этого в интернет залезал на порядок реже.
Режим доиндексирования (изменений в папках, появления новых статей) присутствует.
Относительно формата дежавю - расстрою - он представляет из себя картинки и поиск в нем затруднен.
Остальные же doc, txt, pdf и прочее - индексирует на ура.
Lizard Tech Virtual printer позволяет создать DjvU из любого файла, который можно распечатать.
В систему устанавливается виртуальный принтер. При печати нужно его выбрать - получите djvu-документ.
http://electronix.ru/redirect.php?http://rapidshare.com/files/217708584/djvuprint.rar
http://electronix.ru/redirect.php?http://letitbit.net/download/27a46f652907/djvuprint.rar.html
Virtual printer не всегда обеспечивает нужное качество. Из графических форматов лучше кодировать вручную.
Document Express Editor Pro 6.0.1 Build 1320 & Rus (53 МБ):
http://electronix.ru/redirect.php?http://ifolder.ru/11547346
Свою библиотеку содержу в программе KuLinks. Вполне удобная программа для любых типов файлов.
Использую программу WhereIsIt (_rutracker.org/forum/viewtopic.php?t=1958234), в отличии от total commander
после индексации позволяет очень быстро делать поиск как по жесткому диску так и по архивам и образам дисков,
имеет много других полезных функций.
А я вот много лет уже веду гипертекстовую базу данных ГОСТированной терминологии. На текущий момент "распотрошил" 125 ГОСТов с терминами и определениями, всего терминов около 8 тысяч.
Формат такой: "Автоматизированная система (АС) (Automated system) по ГОСТ 34.003-90 - Система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций [из п. 1.1 ГОСТ 34.003-90]", т.е. под каждый термин выкладывается его определение с указанием первоисточника - конкретного пункта конкретного ГОСТа.
Более того, если открыть страничку этого термина http://electronix.ru/redirect.php?http://tdocs.su/8446 , то:
1. из определения термина можно перейти на определения терминов система, персонал, комплекс средств автоматизации, деятельность, информационная технологи и функция, выполненные в том же формате;
2. перейти на всю терминологию ГОСТ 34.003-90 Информационные технологии. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения;
3. перейти к любому из терминов таксономии - Automated, System, Автоматизированный, АС, ГОСТ, Система;
4. выйти на самую верхушку - Термины и определения из ГОСТов;
5. ну и двигаться по терминологии вперед-назад по алфавиту.
Все это дело реализовано на Drupal, может работать как на хостинге, так и на локальном компе. Можно обойтись и без друпала, тогда все работает как простейший html-сайт.
Еще установлен поиск от гугла: набираем, допустим, слово "автоматизирован..." и гугл вываливает весь содержащий это ключевое слово контент.
В общем, получилось что-то вроде ГОСТопедии А основной кайф состоит в том, что при сложных переговорах, согласованиях и утверждениях документации, при приемке-сдаче можно почти мгновенно найти ГОСТированное определение любого термина, имея с собой хотя бы планшетик, и заставить всех присутствующих говорить на одном языке. А не рыться в полных текстах ГОСТов в поиске требуемого определения термина.
Если кому интересно, то вот ссылка - http://electronix.ru/redirect.php?http://tdocs.su/12048
А вот существует ли каталогизатор, который умеет сам просмотреть pdf-файл, найти в нем ISBN, а затем по этому ISBN найти данные о книге в инете, и заполнить все поля ее описания?
Так чтобы ручной работы был минимум.
А то есть библиотека из нескольких тысяч книг, и вручную открывать каждую и находить ISBN и искать сведения о книге - замучаешься.
Достаточно интересный free-продукт: DB-Note
Этакий каталогизатор-блокнот в виде самостоятельно создаваемого "дерева" с возможностью размещения разнообразной информации на "листках": текст, изображения и пр.
Создание и обслуживание баз данных производится в формате MS Access.
http://electronix.ru/redirect.php?http://fishcodelib.com/CodeLibFree.htm
Русская версия Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)