Версия для печати темы

Нажмите сюда для просмотра этой темы в обычном формате

Форум разработчиков электроники ELECTRONIX.ru _ Документация _ Создание Электронной Библиотеки

Автор: shasik Jun 18 2007, 08:22

Есть некоторое количество книг в pdf, djvu, chm и др. Упарило бегить по каталогам и искать нужную. Подскажите какими программами пользуетесь для создания электронной библиотеки. Создание простого списка файлов - это не то. А так чтобы красиво было да с поиском и т.п. В нете посмотрел. Есть, есть разные. А хорошие то какие?

Ссылки на программы приветствуются.

Автор: el34 Jun 18 2007, 08:25

пользую
dtSearch от
www.dtsearch.com
доволен...

Автор: arttab Jun 18 2007, 15:56

BOOKSEER но не очень даволен

Автор: Nixon Jun 19 2007, 06:39

google desktop с плагинами.

Автор: shasik Jun 21 2007, 05:36

Цитата(el34 @ Jun 18 2007, 11:25)

пользую
dtSearch от
www.dtsearch.com
доволен...

Скачал... Посмотрел... Жалею потраченного времени dialup'а... Не то , что требовалось...

Цитата(Nixon @ Jun 19 2007, 09:39)

google desktop с плагинами.

Посмотрел... Если не секрет с какими именно плагинами, а то их, блин, целая куча, и почте все полезные какие-то, аж противно.

Цитата(arttab @ Jun 18 2007, 18:56)

BOOKSEER но не очень даволен

Посмотрел... Зародыш того, что требуется. Функционал слабоват...

Автор: varvar_p Jun 21 2007, 07:07

Мы пользуемся Sharepoint . Для группы разработчиков удобно обмениваться ссылками на документы, можно устанавливать права доступа к различным библиотекам документов..

Автор: Nixon Jun 22 2007, 07:55

Цитата(shasik @ Jun 21 2007, 08:36)

Archives Plugin for Google Desktop Search - для расширения списка поддерживаемых форматов архивов (в основном из-за .rar)
и еще некоторые форматные.

Автор: umup Jul 6 2007, 07:44

А что, "поиск" в проводнике или total commander не работает ?

Я делал двумя методами :

- простой - переименовывал файлы в соответствии с их полным названием, автором, годом и т.д. и раскидывал по подпапкам в соответствии с темой книги;
- более сложный (когда книг очень много) - каждую книгу или набор файлов - в архив, в архив - файл XML с информацией о книге/авторе/дате и т.д., потом программкой на Питоне генерируется HTML со списком книг, отсортированном по темам и алфавиту. По сравнению с BOOKSEER или базами данных преимущество в переносимости и кроссплатформенности - вся информация о книге содержится вместе с ней, работает на любых системах.

Автор: TsAN Jul 8 2007, 16:22

Цитата(umup @ Jul 6 2007, 11:44)

переименовывал файлы в соответствии с их полным названием, автором, годом и т.д. и раскидывал по подпапкам в соответствии с темой книги

Собственно говоря, при таком вот переименовании вся информация, необходимая для однозначной идентификации книги, оказывается приведённой в имени файла. И вот какой вопрос возникает: если книги уже правильно названы и распределены по каталогам в соответствии с тематикой - что мешает сгенерерировать, скажем, htlm-файл, в котором и прописать название книги и путь к ней? Ибо ежели вся необходимая информация о книге уже содержится в имени файла, её представляющего, так зачем ещё создавать архив, дублируя в него эту информацию? И, по мере пополнения библиотеки, повотрять процедуру генерации.
Более подробно о характеристиках такого html-файла уже http://electronix.ru/forum/index.php?showtopic=30936#, вроде даже ссылка с примером ещё жива.

Удачи!

Автор: shasik Jul 9 2007, 05:19

Цитата(umup @ Jul 6 2007, 10:44)

А что, "поиск" в проводнике или total commander не работает ?

Если у Вас книги в *.txt, то тогда конечно. А если DJVU? А если книг 20 имеют одинаковое название, например: Цифровая обработка сигналов, Справочник по ЦОС, ЦОС речевых сигналов и т.д? А если нужно найти не название книги, а конкретную тему Ваш способ поможет? А если книг несколько тысяч?

Зачем нужен total чтобы найти книгу, название которой и так знаешь, а по содержимому в djvu пролет полный

Автор: Sergu Jul 9 2007, 08:29

Пользуюсь Архивариусом 3000 для поиска по книжкам, статьям и документации
www.likasoft.com/ru/document-search/index.shtm
поддерживает все языки и форматы, какие только можно выдумать ;-)

Автор: TsAN Jul 9 2007, 17:27

Цитата(shasik @ Jul 9 2007, 09:19)

А если нужно найти не название книги, а конкретную тему Ваш способ поможет? А если книг несколько тысяч?

Цитата(shasik @ Jul 9 2007, 09:19)

а по содержимому в djvu пролет полный

Как-то плохо представляю алгоритм поиска, скажем, конкретной темы, в djvu файле, который получен со стороны и не содержит ни OCR-слоя, ни закладок. Не, можно, конечно, и оцифровку сделать, и букмарки расставить. Можно, в конце-концов, листая книгу, и запись в какой-либо базе данных заполнить - дабы её использованием поиск по нужным параметрам обеспечить. Да вот только небольшая мелочь: делать-то всё это придётся исключительно самому, да ещё и практически для всех книг. Напр., коллективно примерно таким вот образом подшивку журнала "Наука и жизнь" за 1990-2005 гг создали: там и полнотекстовой поиск работает; и букмарки, по которым можно навигацию и по рубрикам, и по авторам, и по номерам организовать, имеются. Но журналов-то этих пока что менее двух сотен. А если книг таких действительно несколько тысяч окажется? И, если работать в одиночку, то останется ли после завершения всей этой черновой работы время, чтобы её плодами воспользоваться?
Извиняйте за оффтоп, но - в вышеприведённом аспекте - вопрос, IMHO, разумно и несколько шире, и, возможно, в отдельном топике, рассмотреть. А именно: не кто какими программами для создания/сопровождения своей личной электронной библиотеки пользуется, а какие из них выбрать (а возможно, необходимые и разработать придётся), чтобы совместное их использование было бы и максимально эффективно, и суммарные затраты ручного (ввод данных) труда минимизировало. В последнем случае я имею в виду, что всю необходимую информацию достаточно будет ввести всего лишь только один раз на каком-то определённом этапе создания электронной книги - и результатом можно пользоваться всем участникам проекта, независимо, скажем, от ОС.

Удачи!

Автор: shasik Jul 10 2007, 05:47

Цитата(TsAN @ Jul 9 2007, 20:27)

Как-то плохо представляю алгоритм поиска, скажем, конкретной темы, в djvu файле, который получен со стороны и не содержит ни OCR-слоя, ни закладок.

В нете есть програмки и командные файлы к ним, которые
1. сохраняют некоторые страницы djvu в tiff
2. добавляют текстовый файл в файлу djvu (типа OCR).

Делаем следующее:
1. переименовываем файлы по определенному закону
2. переписываем соответствующим образом батники (командные файлы) для работы не с одним файлом, а группой файлов
3. Делаем с помощью finereader'а OCR
4. Запихиваем *.txt в *.djvu

Ручная работы - п.3, отстальное более-менее автоматизировано.
Делал так. Если честно, то подзае...., есть определенные подводные камни. Может что по-лучше посоветуете, плз.

Автор: TsAN Jul 10 2007, 18:19

shasik, ну так и я об этом же тяжком труде говорил, а Вы конкретизировали. Беда в том, что в такой ситуации, пользуясь словами автора известных первоисточников, посоветовать можно, IMHO, только одно - лучше меньше, да лучше. Т.е., ежели что выкладывать, так луше одну-две книги до нормального товарного вида довести, чем за этот же срок десяток сырцов вывалить, с которыми затем другие мучаться будут. Конечно, бывают ситуации, когда материал позарез срочно нужен - и здесь уж не до товарного вида: лишь бы разобрать можно было. Тут вот ещё какой фактор вмешивается: преобразование tiff в djvu народ почти всегда выполняет с потерями, т.е., со снижением качества. В то время как материал со сканера можно непосредственно в tiff'ах получить - и безо всяких потерь. Поэтому, за редким исключением, всю обработку лучше выполнять с оригинальных tiff'ов, а не с тех, кои из djvu выгнаны. К величайшему сожалению, на практике делать книгу в электронном виде от начала до конца выполнимо далеко не всегда: у кого-то просто нет доступа к сканеру или нужным книгам, кто-то не может свои отсканированные материалы в djvu перегнать, кто-то в принципе не применяет OCR, ибо все равно оцифровка с ошибками выполняется, а делать полную вычитку - на это времени нет. Можно, конечно, пытаться усилия объединить, однако это получается даже гораздо реже, чем одному весь процесс вести.
Относительно ручной работы. Что-то мне кажется, что и по п.3 уже должны быть наработаны методы автоматизации. Вопросы сканирования, обработки и сборки применительно к создаю электронных книг обсуждаются на многих форумах, так что если есть желание и силы заниматься этим регулярно, то, наверное, имеет смысл там потолкаться: и к уже достигнутым технологиям можно будет приобщиться, и чужие ошибки учесть.

А вот на счёт посоветовать что-нибудь получше - вопрос спорный, ибо субьективизма в нём много. Лично я использую имя файла как записи базы данных: автор(ы), название, издательство, год издания, формат/качество, количество страниц, ISBN, рубрика. Достоинства: получил файл, переименовал по форме, положил в нужный каталог - вот и вся ручная работа, ибо всё остальное можно выполнить при помощи разного рода автоматических примочек. Явный недостаток: при очень большом количестве книг, особенно незнакомых, всё ж таки желательно иметь что-нибудь типа краткого содержания или аннотации. К счастью, в последнее время стало признаком хорошего тона: если выкладываешь книгу - приведи и её характеристику. Поэтому, скачивая книгу, имеет смысл сохранить рядом и эту информацию - возможно, когда-либо это позволит не набивать её заново - т.е., примерно так, как это делает ув. umup в случае, когда книг много. Материал, так сказать, для книжного обозрения.

Удачи!

Автор: Escorial Jul 31 2007, 15:38

А может кто знает программу которая является универсальным контейнером для документов формата htm, pdf, doc, xls и т.д. и интегрируется в браузер?

Например, понравилась страничка, нажал кнопку и ее содержимое сохранилось во внутренней базе данных программы в соответствующей рубрике, и чтобы программа понимала большинство популярных форматов.

Сейчас для этих целей используем сервер mediaWiki с хранением файлов на фтп. Но там пока ссылку на хранилище сделаешь, 100 лет пройдет. Хочется больше драг-n-дропа.

Автор: TsAN Jul 31 2007, 17:48

Escorial, так ведь, IMHO, и сам файл в формате html довольно прилично может выполнять функции оболочки-контейнера. Ежели работать под Win, так там некоторые просмоторщики, напр., для djvu или pdf, могут быть интегрированы в браузер; в случае же отсутствия таковой интерации просто запускается программа, обслуживающая нужный формат, и единственное отличие второго варианта от первого - так открытие документа в новом окне. В то же время сам формат html достаточно хорошо документирован, что позволяет при минимальных навыках программирования (ну хоть на старинном Бэйсике) самостоятельно написАть программу, вполне прилично генерирующую нужный html-файл с каким-либо описанием материала и ссылкой на него на основе любых текстовых файлов, напр., в простейшем случае - на основе файла, полученного командой dir /s >Spicok_knig.txt. Т.е., сохранили Вы что-то нужное - применили вышеупомянутую команду dir - запустили этот генератор - и получили готовый к употреблению html-контейнер, в который уже внесены все свежескачанные новые материалы, разложенные по разделам. Лень проделывать все эти процедуры - приписали их в командном файле и вытащили его на ярлык или кнопку - ну, типа ОБНОВИТЬ СПИСОК.
Едиственная сложность: чтобы ссылки какой-либо информацией снабдить - эту информацию необходимо где-то взять, ибо никакой генератор самостоятельно её не создаст. Однако функцию получения подобой информации о книге из нормального имени файла или из html-файла, сопровождающего выкладку, поручить такому генератору вполне возможно. Ну, м.б., с минимальным ручным редактированием, напр., если аннотация слишком большая - указать, что из неё надо включить в описание линка.

Удачи!

Автор: _artem_ Aug 1 2007, 00:46

Цитата(Nixon @ Jun 19 2007, 09:39)

google desktop с плагинами.

Никсон, вы за GDS ничего странного не замечали, типа сброс информации в инет или адваре ?

Автор: _artem_ Aug 2 2007, 23:32

Крайне прискорбно но следует отметить факт что pdftotext от GDS индексирует всего 10 тыс слов считая с начала документа. (кстати он должен отдельно сгружаться с гугл, внутри инсталяционки его нет).

Линк - http://electronix.ru/redirect.php?http://desktop.google.com/support/bin/answer.py?answer=17208&topic=11603

Господа товарищи , кто может привести параметры на другие search енДжины?

Автор: Losik Aug 3 2007, 22:28

Вопрос в тему. Может кто занимался составлением классификатора по электронике?
И второй вопрос, при сортировки статей и книжек довольно часто трудно определить куда их запихнуть, поддерживает ли какой-нибудь софт создание и обработку ссылок?

Автор: Alex B._ Aug 4 2007, 09:50

Цитата(_artem_ @ Aug 3 2007, 03:32)

Господа товарищи , кто может привести параметры на другие search енДжины?

http://electronix.ru/redirect.php?http://www.likasoft.com/ru/document-search/

Автор: alextix Aug 4 2007, 10:14

Пользуюсь Greenstone http://electronix.ru/redirect.php?http://www.greenstone.org/
после прочтения статьи http://electronix.ru/redirect.php?http://itc.ua/print.phtml?ID=4548

Автор: umup Aug 4 2007, 21:19

Цитата

Например, понравилась страничка, нажал кнопку и ее содержимое сохранилось во внутренней базе данных

может подойдет ScrapBook (плагин для FireFox) ?
сохраняет в локальной папке страницы с любой вложенностью и содержимым, управление скачанными страницами как закладками - организованы в виде дерева, страницы можно редактировать прямо в броузере - удалять ненужные блоки, картинки и т.п.

Автор: _artem_ Aug 4 2007, 22:34

Спасибо за ссылки .
Архивариус вроде бы есть на аваксе - 3.88. Проверю как работает. DTsearch не понравился - у меня с rar'ом проблемы вышли.

Автор: shasik Aug 28 2007, 13:04

Цитата(alextix @ Aug 4 2007, 13:14)

После прочтения восторженных отзывов про GreenStone, восхитился. Не терпелось, решил не ждать и скачать... Скачал... Теперь сижу и жалею времени моего домашнего dial-up'а, потраченного на загрузку куска г%#на размером 46 МБ. Полный отстой!!!

Подробности нужны?
- Интерфейс сделан в стиле antiuser. Впрочем, это мелочь. Спасибо уже за то, что хоть с командной строки километровые команды вводить не надо. А то что все медленно отрисовывается, так это дело привычки.
- Индексирование. На некоторых html'ах подвисает (в логе что-то вроде "out of bounds"). Такая же история с pdf'ами: на некоторых просто клина ловит. Rar'ы не ест. Подумал, что, наверное, я дурак и просто пользоваться не умею. Решил потренироваться. Создал папку, в которую поместил 14 простых текстовых файлов. Общим объемом 7 метров. Попробовал создать свою электронную коллекцию. У меня двухядерный Pen'4 3ГГц, когда перегоняю фильмы, могу комфортно продолжать работать. Но если GreenStone обрабатывает тектовый файл, то об этом можно забыть. Проц загружен под завязку, даже окошки переключаются с ох$&%ной задержкой. А общее время обработки!!! За это время, что обрабатывались эти 14 файлов, я бы успел в ручную(!) (не говоря уже про метод Ctrl+C/Ctrl+V) создать на каждый файл описание в несколько абзацев. А ведь это были простые тесктовики! Проводник, Far, Total Commander и др. - все умеют искать текст в файлах, некоторые ищут и в архивах, причем делают это гораздо быстрее. В чем же смысл тогда? Конечно, если занурнуть в глубины настроек, подредактировать исходники этой программулины, разогнать Java'у и т.д., то возможно когда-нибудь что-нибудь получится, если повезет...

К слову, попробовал Архивариус 3000. Хотел сначала тоже обхаять, но потом познакомился с GreenStone...
В Архивариусе не понравилось следующее: обрабатывать тектовые файлы в Rar'ах отказался (unsupported format), пришлось поставить галочку "Извлекать файлы из архивов". В результате "индекс" для папки, в которой были 3814 архивов с тектовыми файлами весом 471 МБ, завесил на 1,5ГБ, т.е. 3 раза больше исходного. Зато представление результата поиска радует, понравился морфологический поиск. А инсталяшка всего то - 3,4 МБ!
Так вот, при настройках по умолчанию Архивариус обработал 3814 архивов быстрее, чем GreenStone 14 уже извлеченных из этих архивов текстовых документа. Вот такое вот быстродействие. Похоже, что новозеландцы это наши чукчи только в южном полушарии. Австралийцы про них тоже анектоды сочиняют.

Для себя сделал такой вывод: для текстовых файлов в архивах, если искать что-нибудь в них нужно часто, то заюзаю Архивариус, если не часто - то Total Commander с его поиском в архивах по содержимому. Но GreenStone не буду есть даже в "блокадном Ленинграде". IMHO. Ну, а для pdf'ов и djvu'шек буду продолжать пользовать файловой системой: логичная структура катологов и "ставящее все на свои места" имя файла. Достаточно удобно и не так уж и трудоемко. Сначала, конечно, сложно, а потом, когда необходимо добавить всего несколько новых файлов, как два байта переслать..

P.S. Попробовал GreenStone еще раз. Ведь так хвалят... Взял теперь 6 текстовиков общим размером 6,7 МБ. GreenStone работал чуть больше 5 минут (вот это скорость!), при этом я в IDE продолжал параллельно ковырять исходник. Размер получившейся my_lib составил 40,8 МБ (всего в 6 раз больше). Попробовал поиск: нашел не все знаки зодиака (в папке была книга на астрологии

- вот она вероятная разгадка скорости! И попробуйте меня теперь переубедить, что ето есть крутая вестчь.

А ведь счастье есть, его не может не быть...

Автор: shasik Dec 26 2007, 07:06

Возникла другая проблема.

Я теперь просто раскладываю книги по тематическим папкам. А проблема в том, что у меня они хранятся дома и на работе. Пополнения могут прийти и туда, и туда.
Вопрос: как их синхронизировать? А точнее чем? Т.е. я взял очередное пополнение раскидал его по папкам. Программа-синхронизатор сделала "снимок", создала update, я принес его домой/на работу, запустил такую же программу, которая подхватила этот update и сама(!) раскидала пополнение по тем же папкам. Подскажите?

Автор: kipmaster Dec 26 2007, 08:45

У меня куча даташитов, документов Оффиса, Аcad, - все разложено по проектам. Искать вручную нужный элемент нереально. Давно пользуюсь Copernic Desktop Search. Поиск занимает секунды. Прога индексирует файлы указанных типов по содержанию. Я очень доволен. Только djvu не знаю, а PDF - очень классно обрабатывает.

Цитата(shasik @ Dec 26 2007, 09:06)

Вопрос: как их синхронизировать? А точнее чем?

Total Commander хорошо синхронизирует. Только на флэшке нужно носить весь архив. Дома и на работе запускаю синхронизацию и по списку несовпадений выбираю, что удалить, что скопировать.

Автор: shasik Dec 26 2007, 10:18

Цитата(kipmaster @ Dec 26 2007, 10:45)

Что значит "носит весь архив"? Архив с новыми поступлениями или вообще весь? Просто у меня того, что называется "книга" около 20 ГБ, более 10000 файлов. Носить все на флэшке - это круто. А пополнения примерно раз в неделю, примерно по одной-две сотни файлов. Отсортировав все дома/на работе, не хочется еще раз в ручную(!) сортировать по папкам.

Автор: Alex B._ Dec 26 2007, 12:08

Цитата(shasik @ Dec 26 2007, 13:18)

А пополнения примерно раз в неделю, примерно по одной-две сотни файлов. Отсортировав все дома/на работе, не хочется еще раз в ручную(!) сортировать по папкам.

Уже года два пользую вот это:
http://electronix.ru/redirect.php?http://soft.softodrom.ru/ap/p2599.shtml
Синхронизирует в разы быстрее чем TotalCommander
оффсайт лежит почему-то но в кэше гугля инфа есть.

Автор: shasik Jan 29 2008, 10:23

Цитата(Alex B._ @ Dec 26 2007, 14:08)

VuBrief 5.3 - то, что доктор прописал. Попробовал - понравилось!
Большое Спасибо За Наводку!

Автор: Doka Feb 16 2008, 15:59

а нет ли под эти задачи какого-нить _уже_придуманного_ стандарта, на основе XML ? (чтобы не выдумывать велосипед)

как я себе это представляю: каждый файл комплектуется файлом формата XML (метаданные) с идентичным названием, в котором описано всё, начиная от УДК или ISBN и MD5sum файла, заканчивая ключевыми тэгами книги (для быстрого поиска) и фото обложки в Base64.
такая децентрализованность может облегчить распространение электронных документов, каждый из которых комплектуется файлом XML (метаданные).
а для поиска/индексации использовать простую утилитку (благо сейчас XML подерживается на очень высоком уровне), которая бы просто лазила по каталогам и парсила все XML-файлы со стандартным и известным заголовком/структурой.
если библиотека _очень_большая - то как опция - сливать это в единый XML (кэш), а переиндексацию запускать оп прибытии новых документов.

Автор: _pegas_ Jun 16 2008, 13:54

BookCollector - очень нравится

Автор: Doka Jun 22 2008, 18:22

_pegas_
а подробней можно?? (сайт, основные возможности, преимущества)

а то по "Book Collector" много чего гуглится..
притом гуглится очень интересного - например онлайн-каталоги книг с описанием..

в связи с этим, интересен вопрос прикрутки локальной (своей) библиотеки книг к готовым описаниям (или наоборот). например на основе ISBN

Автор: ukpyr Jun 24 2008, 08:20

Цитата

в связи с этим, интересен вопрос прикрутки локальной (своей) библиотеки книг к готовым описаниям (или наоборот). например на основе ISBN

можно брать данные книг через поиск на сайтах типа amazon простым скриптом на Перле, Питоне и т.п., и прописывать эту инфу (например в xml) в архив с файлом книги.

Автор: Doka Jun 24 2008, 19:51

Цитата(ukpyr @ Jun 24 2008, 12:20)

мысль интересная, но есть стойкое ощущение, что "всё придумано до нас"..
но из-за невозможности объять всё, пока еще не найден "давно изобретённый велосипед"

Автор: Mikle Klinkovsky Jun 24 2008, 22:18

Во, только сегодня пробежало по http://electronix.ru/redirect.php?http://www.klerk.ru/soft/n/?111689:
Программа для самостоятельного создания баз данных
http://electronix.ru/redirect.php?http://www.datawasp.com/Pages/download.html

Вышел новый продукт под названием Datawasp 1.0. Этот пакет позволяет самостоятельно создать многопользовательскую систему хранения и контроля информации, используя привычный табличный интерфейс. Продукт ориентирован на организации, где создавать собственную полноценную систему на основе СУБД слишком дорого и сложно.

В Datawasp реализована иерархическая модель данных и текущее состояние пользовательского интерфейса полностью отражает иерархическую структуру данных. Кроме того, в БД можно добавить различные расчеты и отчеты. Основным преимуществом Datawasp над реляционными БД и электронными таблицами авторы считают простоту.

PS в видео демонстрации на сайте как раз пример с книгами рассматривается.
Единственное- не ясно в каком формате база и можно-ли внешние автозаполнялки/конвертеры прикручивать (ИМХО, тоже думаю, что есть что-то готовое, похожее на CDDB по книжкам, надо только найти).

Еще наткнулся на обсуждение "http://electronix.ru/redirect.php?http://www.ice-graphics.com/forumr/viewtopic.php?t=741&postdays=0&postorder=asc&start=0"

Автор: Doka Jul 5 2008, 11:06

в развитии темы: наткнулся на просторах википедии вот на http://electronix.ru/redirect.php?http://ru.wikipedia.org/wiki/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:BookSources/5845905869

дело за парсером результатов поиска))

Автор: Yra Jul 19 2008, 21:41

Я сначала переименовал почти все книжные файлы к виду: название книги - автор. Затем поднял на своём компе Apache+PHP+MySQL. Установил MediaWiki
и пишу ссылки и аннотации к понравившимся книгам в ней.
Каталог к книгам можно открыть и напрямую (Apache автоматически проиндексирует - главное правильно настроить).
В проиндексированном каталоге можно быстро найти книгу по названию или автору через Ctrl+F, причём с любой машины в сети

Автор: Doka Jul 30 2008, 16:27

Цитата(Yra @ Jul 20 2008, 01:41)

Установил MediaWiki
и пишу ссылки и аннотации к понравившимся книгам в ней.

как-то это всё неэкономно в плане использования ручного труда(((
я конечно тоже использую вики-блокнотик (исключительно для мыслеизлияния и ссылочек)
но книжки более эффективно конспектировать в чём-то вроде MindMap, имхо

Цитата

Каталог к книгам можно открыть и напрямую (Apache автоматически проиндексирует - главное правильно настроить).
В проиндексированном каталоге можно быстро найти книгу по названию или автору через Ctrl+F, причём с любой машины в сети

ну, а чем это отличается от поиска по Alt+F7 в Far/TotalCmd при поднятой Samba?
вопрос в том, что делать, если не помнишь ни автора ни названия,а поиск по ключевому слову (например "FPGA") выдаёт тыщи две результатов поиска.

вот тут бы и заиграла динамически подлинковываящаяся БД (см.выше) с описанием книжек и поиском по ключевым словам, аннотации.

Автор: Sevrukov_Andrey Jan 16 2009, 10:28

уже упоминался, до добавлю свой плюс в сторону архивариус 3000 (ссылка дана выше).
Индексирует указанные папки и дальше поиск простой как google.com - вводите ключевые слова или конкретные фразы - поиск быстр и точен.
Есть разные степени индексирования и соответственно разный объем файла индекса.

Очень помогла при написании диссертации. Жаль, что нашел ее уже на одном из последних этапов - время относительно интернет поиска с его битыми ссылками и платными статьями экономит множество.

Проиндексировал базу своей выборки статей по дисеру (2-3 гигабайта) и имеющиеся диски с журналами solid-state circuits - несколько десятков гигабайт. После этого в интернет залезал на порядок реже.

Режим доиндексирования (изменений в папках, появления новых статей) присутствует.

Относительно формата дежавю - расстрою - он представляет из себя картинки и поиск в нем затруднен.

Остальные же doc, txt, pdf и прочее - индексирует на ура.

Автор: Sergu Jan 27 2009, 06:55

Цитата(Sevrukov_Andrey @ Jan 16 2009, 13:28)

Относительно формата дежавю - расстрою - он представляет из себя картинки и поиск в нем затруднен.

Не совсем верно, в djvu-формате предусмотрена возможность использования текстового "слоя", так что по нормально сделанным djvu-книжкам архивариус тоже успешно ищет....

Автор: andr1791 Apr 5 2009, 13:46

Lizard Tech Virtual printer позволяет создать DjvU из любого файла, который можно распечатать.
В систему устанавливается виртуальный принтер. При печати нужно его выбрать - получите djvu-документ.

http://electronix.ru/redirect.php?http://rapidshare.com/files/217708584/djvuprint.rar
http://electronix.ru/redirect.php?http://letitbit.net/download/27a46f652907/djvuprint.rar.html

Автор: tsw Apr 11 2009, 11:53

Virtual printer не всегда обеспечивает нужное качество. Из графических форматов лучше кодировать вручную.
Document Express Editor Pro 6.0.1 Build 1320 & Rus (53 МБ):
http://electronix.ru/redirect.php?http://ifolder.ru/11547346

Автор: White84 Mar 15 2010, 20:24

Свою библиотеку содержу в программе KuLinks. Вполне удобная программа для любых типов файлов.

Автор: Mactovian Mar 16 2010, 10:16

Использую программу WhereIsIt (_rutracker.org/forum/viewtopic.php?t=1958234), в отличии от total commander
после индексации позволяет очень быстро делать поиск как по жесткому диску так и по архивам и образам дисков,
имеет много других полезных функций.

Автор: KBH Jul 24 2014, 07:53

Цитата(shasik @ Jun 18 2007, 12:22)

WhereIsIt - отличный каталогизатор файлов на дисках.
Внёс в него свой внешний терабайтник - отлчно ищет, на 3 порядка быстрее коммандера.
Не только по названиям файлов и каталогов, но и по их описаниям.

Скачивал с http://electronix.ru/redirect.php?http://rutracker.org/forum/tracker.php?nm=WhereIsIt - не помню, который именно.

Автор: tdocs.su Jan 20 2015, 07:54

А я вот много лет уже веду гипертекстовую базу данных ГОСТированной терминологии. На текущий момент "распотрошил" 125 ГОСТов с терминами и определениями, всего терминов около 8 тысяч.

Формат такой: "Автоматизированная система (АС) (Automated system) по ГОСТ 34.003-90 - Система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию выполнения установленных функций [из п. 1.1 ГОСТ 34.003-90]", т.е. под каждый термин выкладывается его определение с указанием первоисточника - конкретного пункта конкретного ГОСТа.

Более того, если открыть страничку этого термина http://electronix.ru/redirect.php?http://tdocs.su/8446 , то:

1. из определения термина можно перейти на определения терминов система, персонал, комплекс средств автоматизации, деятельность, информационная технологи и функция, выполненные в том же формате;
2. перейти на всю терминологию ГОСТ 34.003-90 Информационные технологии. Комплекс стандартов на автоматизированные системы. Автоматизированные системы. Термины и определения;
3. перейти к любому из терминов таксономии - Automated, System, Автоматизированный, АС, ГОСТ, Система;
4. выйти на самую верхушку - Термины и определения из ГОСТов;
5. ну и двигаться по терминологии вперед-назад по алфавиту.

Все это дело реализовано на Drupal, может работать как на хостинге, так и на локальном компе. Можно обойтись и без друпала, тогда все работает как простейший html-сайт.

Еще установлен поиск от гугла: набираем, допустим, слово "автоматизирован..." и гугл вываливает весь содержащий это ключевое слово контент.

В общем, получилось что-то вроде ГОСТопедии А основной кайф состоит в том, что при сложных переговорах, согласованиях и утверждениях документации, при приемке-сдаче можно почти мгновенно найти ГОСТированное определение любого термина, имея с собой хотя бы планшетик, и заставить всех присутствующих говорить на одном языке. А не рыться в полных текстах ГОСТов в поиске требуемого определения термина.

Если кому интересно, то вот ссылка - http://electronix.ru/redirect.php?http://tdocs.su/12048

Автор: Anga Jan 27 2016, 22:54

А вот существует ли каталогизатор, который умеет сам просмотреть pdf-файл, найти в нем ISBN, а затем по этому ISBN найти данные о книге в инете, и заполнить все поля ее описания?
Так чтобы ручной работы был минимум.
А то есть библиотека из нескольких тысяч книг, и вручную открывать каждую и находить ISBN и искать сведения о книге - замучаешься.

Автор: TSerg Feb 3 2016, 18:33

Достаточно интересный free-продукт: DB-Note

Этакий каталогизатор-блокнот в виде самостоятельно создаваемого "дерева" с возможностью размещения разнообразной информации на "листках": текст, изображения и пр.
Создание и обслуживание баз данных производится в формате MS Access.

http://electronix.ru/redirect.php?http://fishcodelib.com/CodeLibFree.htm

Автор: _Ⓐ_ Feb 4 2016, 10:46

Цитата(Anga @ Jan 28 2016, 01:54)

А вот существует ли каталогизатор, который умеет сам просмотреть pdf-файл, найти в нем ISBN, а затем по этому ISBN найти данные о книге в инете, и заполнить все поля ее описания?

Фантастика.
Ненаучная.
Как минимум потому что не все pdf текстовые.

Цитата(TSerg @ Feb 3 2016, 21:33)

Меня всегда умиляла разработка «свободных» продуктов с завязкой на несвободные библиотеки.
Не говоря о вопросе производительности (потянет ли аксцесс объём базы Генезиса? даже без файлов…).

Автор: HardEgor Mar 29 2016, 10:54

Цитата(_Ⓐ_ @ Feb 4 2016, 16:46)

Фантастика.
Ненаучная.
Как минимум потому что не все pdf текстовые.

Ну почему-же, не-текстовые документы распознаем (через какой-нибудь интернет-сервис или программу распознавания), получаем текст и ищем ISBN.
Несколько процентов конечно не сможет обработать, но их можно ручками.
Но самая проблема будет найти актуальную и более-менее полную базу ISBN из которой предполагается тащить данные.

Русская версия Invision Power Board (http://www.invisionboard.com)
© Invision Power Services (http://www.invisionpower.com)