san4es: (reader)
san4es ([personal profile] san4es) wrote2011-03-05 09:59 am

Вопрос в отношении вычитки

Я всё время перебираю имеющиеся на сегодняшний день методики создания электронных книг. Как я уже писал ранее, формат DJVU представляется мне только лишь формой хранения сканов книжки. Хранения до момента создания уже версии векторного PDF. Конечно, как только в DJVU будет введена поддержка заметок и разного рода форматирования, я сразу же перейду окончательно к этому формату, а пока...

Вопрос собственно вот в чём. Для целей последующего цитирования требуется иметь книжку с соответствием страниц, что накладывает дополнительные требования к вычитке. Просто ради "почитать" делается очень легко и непринуждённо. Можно сходу получить кучу форматов на все случаи жизни.

Вопрос такой: ответьте, пожалуйста, насколько часто вам требуется цитирование? Заморачиваться с этим или нет? Это не очень трудно, однако...


P.S. Коллективное мнение склоняется к тому, что соответствие страниц - весьма важная вещь. При этом [livejournal.com profile] dorombos предложил хороший компромисный вариант - если уже наличествует DJVU, то можно ограничиться одним вычитанным текстом. На этом и остановимся пока.

[identity profile] bezbogny.livejournal.com 2011-03-05 08:05 am (UTC)(link)
Думаю, цитирование "с координатами" нужно тем, кто использует книгу для академической работы. Лично мне - не нужно.
А вот возможность делать пометки и замечания нужны. Правда, я не знаю, какие форматы это позволяют (кроме полностью текстовых хтмл, док или фб2, разумеется - там-то всё просто).

[identity profile] san4es.livejournal.com 2011-03-05 08:13 am (UTC)(link)
По большому счёту заметки можно делать только в PDF и HTML. Я имею в виду "шобы всё красивенько было". Так-то конечно можно и отдельный файл завести для заметок, как я раньше делал.

[identity profile] monco83.livejournal.com 2011-03-05 08:29 am (UTC)(link)
Для серьёзных книг штука полезная, как я считаю.

[identity profile] san4es.livejournal.com 2011-03-05 08:50 am (UTC)(link)
Ну, несерьёзные я стараюсь качать на стороне :)

[identity profile] dorombos.livejournal.com 2011-03-05 08:32 am (UTC)(link)
Скажем так, это полезно, не обязательно, чтобы страницы сохранялись в "читабельной" версии. Главное, чтобы оставался исходник, по которому можно было бы уточнить страницу.

[identity profile] san4es.livejournal.com 2011-03-05 08:54 am (UTC)(link)
Да я вообще-то придерживаюсь того же мнения. Правда, вот сейчас в "Знание-власть" выкладывается море сканов, из которых-то и книжек сделано не густо.

Просто тут у меня сошлись две технологии: одна позволяет шлёпать любые форматы, но без соответствия страниц, а вторая - шмалить в OpenOffice с последующей выгрузкой в PDF с соответствием страниц. Сразу в двух делать неохота.

Бум думать

[identity profile] libelli-nestor.livejournal.com 2011-03-06 03:01 am (UTC)(link)
Все была ба чюдно. Но поисковики не умеют корректно искать в пдф и дежавю. А в доке и хтмл умеют. А посему графформаты можно принимать как лишь промежуточный вариант, полуфабрикат текстов, готовых к непосредственному употреблению.

[identity profile] san4es.livejournal.com 2011-03-06 05:20 am (UTC)(link)
А точно поисковики не умеют искать в PDF? Вроде бы Гугл выдаёт результаты поиска в PDF. Или он это делает именно что "некорректно"?

[identity profile] libelli-nestor.livejournal.com 2011-03-07 02:22 am (UTC)(link)
Проверьте сами. Я, правда, лично предпочитаю яндекс, гуглем почти не пользуюсь, но не думаю, что в этом между ними разница.
1. Попробуйте набрать в поисковом окошке несколько слов для поиска. Результат выдачи будет только по первому слову, остальные можно было и не вводить, так как они все равно игнорируются.
2. Допустим, Вам нужно найти слово "скамейка". Если встречается в тексте, к примеру, скамейкой или скамейке, обычный текстовый (doc, txt, html...) файл поисковик найдет, а pdf/djvu - нет, потому что словоформ для этих форматов не понимает.
3. Иногда не находит точно имеющиеся в pdf/djvu слова. Почему - не знаю. С текстовыми файлами такого не случается. Возможно, из-за особого формата шрифтов / кодировок.
4. Плохо или вообще не понимает содержания колонтитулов. В частности, номера страниц...
И т. д.

[identity profile] master-genie.livejournal.com 2011-03-05 01:24 pm (UTC)(link)
ну, краще коли сторінки є, чим коли їх нема )

[identity profile] san4es.livejournal.com 2011-03-05 01:57 pm (UTC)(link)
Уговорили, уговорили :)

[identity profile] al-hromov.livejournal.com 2011-03-05 05:04 pm (UTC)(link)
I краще, і корисно )

[identity profile] san4es.livejournal.com 2011-03-05 07:06 pm (UTC)(link)
Ну, конечно. А вот скажи, если у тебя есть книжка в DJVU, а появляется вычитанный PDF, ты его качаешь?

[identity profile] al-hromov.livejournal.com 2011-03-05 08:19 pm (UTC)(link)
Бывает -- разумеется, если DJVU без OCR, а книга стоит того.

[identity profile] san4es.livejournal.com 2011-03-05 08:27 pm (UTC)(link)
Во, видишь! Значит, ежели есть DJVU с OCR (а это всё-таки норма сейчас), то я делать PDF наверное вообще не буду, только EPUB, ну и HTML, к примеру

[identity profile] rexy-craxy.livejournal.com 2011-03-05 08:02 pm (UTC)(link)
Я в ибуке часть ПСС бородачей заменил с PDF/DjVu на FB2.
А вот с EPUB на 301-м проблема: не возвращяется назад после прыжка в сноску.

[identity profile] san4es.livejournal.com 2011-03-05 08:07 pm (UTC)(link)
А ты в чём там смотришь? В FBReader или Adobe Digital Editions?

[identity profile] rexy-craxy.livejournal.com 2011-03-05 08:14 pm (UTC)(link)
ХЗ. А это можно выбирать в 15.3 прошивке?

[identity profile] san4es.livejournal.com 2011-03-05 08:25 pm (UTC)(link)
Так по-моему только в ней и можно выбирать. Раньше по умолчанию шло в FBReader. Если мне не изменяет память, то надо джойстиком нажать и подержать. Тогда выпадет меню, в котором должен быть этот пункт.

[identity profile] rexy-craxy.livejournal.com 2011-03-05 09:36 pm (UTC)(link)
Не нашел такого

[identity profile] san4es.livejournal.com 2011-03-06 05:34 am (UTC)(link)
Оч. странно. Я на своём, когда он ещё жив был выбирал между программами чтения. Пишут, что надо в контекстном меню над книжкой выбрать "Открыть с..."

[identity profile] rexy-craxy.livejournal.com 2011-03-06 10:01 am (UTC)(link)
А, это на списке файлов?

[identity profile] rexy-craxy.livejournal.com 2011-03-06 01:49 pm (UTC)(link)
Нашел. При попытке открыть епуб фбридером зависает.

[identity profile] san4es.livejournal.com 2011-03-06 01:56 pm (UTC)(link)
О как! То есть ты его смотрел таки в ADO. Интересно... А что за книга?

[identity profile] rexy-craxy.livejournal.com 2011-03-06 02:38 pm (UTC)(link)
Тома бородачей с флибусты.

[identity profile] san4es.livejournal.com 2011-03-06 03:03 pm (UTC)(link)
Кстати, а зачем скачал в epub? Там же вроде есть fb2.

Наверное дело в том, что криво смастырили сами ссылки. Их делают разными способами: в конце страницы, отдельным файлом, отдельными файлами на каждую ссылку. Надо посмотреть.

[identity profile] rexy-craxy.livejournal.com 2011-03-06 03:04 pm (UTC)(link)
Теперь-то ясно, что незачем. Оказывается, в фб2 оглавления тоже бывают :)

[identity profile] san4es.livejournal.com 2011-03-06 03:04 pm (UTC)(link)
А как там кстати с формулами? Картинки небось?

P.S. Люди из Pocketbook'a собираются портировать CoolReader на свои ибуки. Так что похоже FBReader со своими темпами развития окажется на обочине.

[identity profile] rexy-craxy.livejournal.com 2011-03-06 03:05 pm (UTC)(link)
Пока не одной не попалось.

[identity profile] san4es.livejournal.com 2011-03-06 03:21 pm (UTC)(link)
А там по-моему и нет ничего такого. "Капитал" ведь в 23 кажется?

[identity profile] rexy-craxy.livejournal.com 2011-03-06 03:42 pm (UTC)(link)
Начинается с, ЕМНИП

[identity profile] libelli-nestor.livejournal.com 2011-03-06 02:51 am (UTC)(link)
Вопрос о том, как часто требуется цитирование, некорректный. Порой требуется точное указание страницы. Но в электронном общении чаще не нужно. Если это короткая статья, при особой необходимости можно проследовать в библиотеку, точно установить страницу. Это легко. Если большая книга, дело сложнее. Но для "бумажной" фиксации результата выполняемой научной деятельности точное указание страницы абсолютно необходимо. Для электронного дискурса не нужно. Поэтому существенно важно уточнять сферу цитирования - бумажную или электронную.
Таковы самые общие положения.
Перейду к конкретике. Лично я специализируюсь на истории русской социал-демократии 1880-х гг. Наиболее часто цитируемый и наиболее ценный источник по этой теме - многотомный биобиблиографический словарь "Деятели революционного движения в России". Принято его цитировать со ссылкой на столбец. А в его существующей версии нет вообще указаний не только на столбцы, но и на тома. Постольку его существующая электронная версия имеет научную ценность, близкую к нулевой. Биографические данные можно брать не обязательно из этого источника, они присутствуют часто и в массе других публикаций, но если уж ты их откуда-то берешь, изволь дать ссылку. А если в электронном источнике не указан не только столбец, но даже том, то это полнейшая профанация, остановка на самом существенном моменте. Сведения мне и так известны, без электронной публикации, мне номер столбца и тома подай. Это безусловно необходимо для бумажной публикации. Если номера томов и столбцов отсутствуют в электронном издании, то это в традиционном научном обиходе почти равносильно полному отсутствию информации. Т. е. я эту информацию и так знаю, но я должен давать ссылку. Если не могу дать, то пользы от того, что она воспроизведена в электронном виде без указания стобцов/страниц абсолютно никакой.

[identity profile] san4es.livejournal.com 2011-03-06 05:48 am (UTC)(link)
Логика ясна. По существу надо понимать, для чего потом будет использоваться результат. Если выставлять онлайн, тогда нужен HTML с указаением страниц. С другой стороны, всегда можно указать главу, в которой содержится цитата.

[identity profile] libelli-nestor.livejournal.com 2011-03-06 11:25 am (UTC)(link)
Я привык пользоваться яндексом, но не думаю, что гугль в рассматриваемом отношении от него не отличается. В яндексе можно набрать произвольную группу из 3-5 слов в любых словоформах, в текстовых форматах он найдет, что нужно. В пдф же он умеет находить только одно слово в только одной заданной словоформе, оперировать флексиями и префисами он не умеет. Более того, не всегда почему-то производит повторный (искать следующее совпадение) поиск, бастует. А некоторые слова почему-то не находит совсем, хотя они есть. Может быть, дело в кодировках или в чем еще, причину я так и не понял.
А с любыми обычными текстовыми форматами - док - текст - хтмл никаких таких проблем вообще нет. Даже когда тексты в офлайне заархивированы, поиск по ним успешно (даже быстрее и лучше, чем в сети) выполняет персональный поиск яндекса.

Учитывая это обстоятельство, преимущества текстовых форматов над графикой с текстовыми слоями остается признавать очевидным.

[identity profile] san4es.livejournal.com 2011-03-06 01:48 pm (UTC)(link)
Вы знаете, вот сейчас попробовал набрать в поиске Гугля "марксизм Люксембург капитал filetype:pdf", что означает поиск в PDF, и получил множество ссылок. Так что, можно сказать, что работает.

[identity profile] libelli-nestor.livejournal.com 2011-03-06 01:59 pm (UTC)(link)
Очень хорошо. А теперь проверьте нахождение в найденных текстах всех введенных Вами в поисковое окошко слов. Я проверял. Ищется только по одному первому. Потому и так много полученных ссылок.

[identity profile] libelli-nestor.livejournal.com 2011-03-07 02:29 am (UTC)(link)
А теперь проверьте, точно ли в выданных ссылках, кроме слова "марксизм" присутствуют слова "Люксембург", "капитал".

[identity profile] libelli-nestor.livejournal.com 2011-03-06 11:42 am (UTC)(link)
По мне док лучше хтмл. Но предпочтительнее, по-моему, заархивированное представление. Конечно, приятно с помощью поискового запроса прямо в сети находить нужный контекст, но специалисту известны названия нужных ему источников, и ему достаточно, чтоб они как таковое присутствовали в сети.Это еще увязывается с вопросами дефицита-экономии места на винчестере и времени-скорости скачивания.
Полагаю, что в ближайшем обозримом будущем будут разработаны форматы, лишенные недостатков текстовых и фотоформатов. А пока я отдаю предпочтение заархивированному тексту.

[identity profile] libelli-nestor.livejournal.com 2011-03-06 12:50 pm (UTC)(link)
Идеален, по-моему, сейчас следующий набор инструментов.
1. Офлайновый (еще лучше и также онлайновый, но такового на сей момент пока еще не существует) библиотечный каталогизатор типа буксира.
2. Каталогизированная в этом каталогизаторе офлайновая библиотека.
3. Персональный поиск яндекса либо аналогичный других поисковиков - который индексирует тексты в архивах и позволяет производить в них поиск.
4. Качественный набор линков.
5. Факультативно - собственная электронная онлайн-библиотека.

Особенно эффективен такой инструментарий, когда он применяется группой исследователей. База каталогизатора, в принципе, не слишком большой файл. У меня 65 тыс. позиций в архиве весят всего мег. Участникам группы достаточно сравнительно изредка, несколько раз в год обмениваться обновленными версиями баз для того, чтоб получать в итоге в распоряжение громадные библиотеки, удобнейшие для непосредственного пользования.
В каталогизаторе "Буксир" встроен собственный отличный поиск по именам авторов и названиям текстов. Есть отфильтровка - по темам и т. п. Нужные тексты находятся в буквально два-три нажима. Альтернативно и факультативно можно выходить на нужный контекст с помощью персонального поиска яндекса в заархивированных файлах - за доли секунды.
Быстро, удобно, экономично.
Альтернативно, иначе. Долго и муторно искать нужные источники / контексты в онлайне, причем приходится просматривать горы белого мусора, далее столь же долго и муторно разбираться с отобранным более-менее подходящим.
А представленный мной инструментарий ускоряет и упрощает нахождение и получение нужных контекстов революционно, на пару порядков минимум по сравнению с традиционной технологией, где этот инструментарий не применяется.

[identity profile] san4es.livejournal.com 2011-03-06 01:51 pm (UTC)(link)
Интересно, надо будет покрутить. Насколько я понимаю, результатом поиска будет текстовый файл. А он каков? Просто текст или с соответствием страниц? Или за конкретными координатами страницы обращаться уже на этапе формирования библиографии?

[identity profile] libelli-nestor.livejournal.com 2011-03-06 02:08 pm (UTC)(link)
Текст такой, какой сделан. С пагинацией или без. Отличный поиск в тексте, с различением регистров букв, имеется также и в самом буксире. Т. е. персональный поиск яндекса на искомое место в тексте не выводит, выдает только текст, а поиск буксира находит искомое место в тексте и его повторения.
Замечу еще, что обычно цитаты бородачей я нахожу, вводя номера страниц, когда они мне известны. Совпадения с другими аналогичными цифрами, как показывает опыт, встречаются достаточно редко. Эти тексты я делал в доке. А в пдф то же делать много сложнее. Не знаю почему, но номера страниц во внутреннем поиске читалок пдф находятся крайне ненадежно.

[identity profile] libelli-nestor.livejournal.com 2011-03-07 02:35 am (UTC)(link)
Заглянул на сайт разработчика Марка Солтановича http://msolt.chat.ru . Оказывается, месяц назад вышла долгожданная новая версия буксира. Полное обалдеть, прямо фантастика. Научился каталогизировать онлайн-странички, поддерживать 7zip, обслуживать все функции fb2.
Совершенно потрясающая прога с колоссальным количеством возможностей! Я без нее давно уже не могу обходиться, как без рук.