san4es: (Default)

Давным-давно в одной далёкой галактике… Короче, написал я аж в 2009 году пост про переводчиков и Линукс. Сейчас по прошествии лет видно, что пост был наивный и даже не слишком информативный. Сейчас я бы к вопросу подошёл по-другому :) Но писать я хочу не об этом.

Недавно случилось событие, которое вполне может перевернуть привычный мир письменного перевода. Гугл анонсировал внедрение нейронных сетей в свой Переводчик. Это — третий этап развития систем автоматического/автоматизированного перевода.

Стоит окинуть взором, что же изменилось за время, прошедшее с 2009 года.

Если суммировать, то ничего особого не случилось. Если рассматривать коммерческие САТ-системы, то потолок их развития ограничивался самой концепцией памяти переводов. Соответственно, основные усилия были направлены на вылизывание продукта, увеличение его стабильности, поддержку форматов. Ну, и последний штрих — возможность коллективной работы через облачные решения. Вот и всё.

В Линуксе также особых изменений не произошло. OmegaT продолжала матереть, превращаясь в промышленную САТ-систему. Anaphraseus также занимает свою нишу. Кстати, жена там, где требуется SDLX Trados, переводит в VirtualBox, а в других местах вообще просто в LibreOffice без всяких «кошек» — так ей проще. И ещё она очень ценит функцию автодополнения слов, которая есть в Writer. В принципе, такой подход оправдан, если тексты у тебя практически не повторяются. Тогда единственный бонус САТ — это наличие глоссария. И только то!

Но вот сейчас с внедрением нейросетей начинается новая гонка. И очень интересно, кто же останется в седле. Во всяком случае для Линукса. Потому что раньше разница между системами была невелика, весь вопрос упирался в форматы, которые требовались заказчику. Переход же на нейронные сети сулит увеличение качества и скорости перевода.

Я, кстати, поглазел на этот новый Переводчик от Гугл. Что сказать… Закинул ему порядка пяти кусков текста. Книги, блоги. Стабильности пока что нет. Удивил перевод фрагмента блога: один пост Переводчик на ура съел, во втором, того же автора, напортачил. Пока сыро, но уже лучше, чем раньше. Посмотрим на эволюцию системы. У Гугла есть инструмент для коллективной работы, так вот именно он, похоже, и станет источником данных для обучения нейронной сети.

И да, крутость синхронистов возрастёт немеряно — их положению никто не угрожает. Пока. Хотя, может и мы и доживём до «балалаек» Панова.

san4es: (Default)

Импортозамещение на марше и добралось до ФМСовской системы МИР. Как видно из заданной траектории, массовая пересадка на «Эльбрус» приведёт к пересадке же на СПО, потому что одного без другого просто не существует.

Самое же главное тут другое: «окончательное решение вопроса» ПО в госконторах вроде бы даже обозначено: в июле 2016 г. Медведев утвердил план перехода, который оканчивается для госорганов декабрём 2018 г. Есть и реестр даже отечественного ПО. При этом в разделе «операционные системы» находится только Astra Linux.

А в нашей конторе по тендеру закупались Windows 10, мда…

san4es: (linux)
С этой вашей ерундой совсем забудешь о важных датах. 25 августа 1991 г. Линус сообщил о том, что начал работу над новой операционной системой.

И немедленно выпил...
san4es: (ha-ha)
Сначала полез проверять сегодняшнюю дату. Однако, всё верно - 24 мая, а не 1 апреля. Тем не менее ЛОР made my day:
Работа над модификацией Fedora Linux для работы на Raspberry Pi, оптимизированной под процессоры ARMv6, возобновилась. Теперь проект будет выходить под новым именем: Pidora Linux.

Сразу вспомнились Mitsubishi Pajero и Mazda LaPuta.
san4es: (gentoo_linux)
Кстати, описанный вариант не проканал: есть какая-то разница в реализациях между линуксовой версией и виндовой. А может просто разные номера версий были. Смысл в том, что не взлетел. А вот TrueCrypt для тех же целей работает нормально. Правда, Dropbox начинает синкать только после того, как том TrueCrypt был отмонтирован, т.е. когда обновился файл контейнера. Не совсем на лету получается.
san4es: (gentoo_linux)
Я уже писал про некоторое... э-э... затруднение, возникшее у меня после одного из обновлений системы. С некоторым опазданием обнаружил, что на компе жены после обновления портежей никакого Gnome 3.6 ставить не требуют. Так как новый Gnome стал источником дополнительных неудобств, я решил откатиться на 3.4, благо Calculate Linux позволяет это с лёгкостью. Обновил портежи, внизу болтались какие-то блокировки, но главного ведь я достиг - старый-добрый Gnome 3.4!

За ночь накомпилял нужные пакеты. Всё вроде бы налаживается. Однако надо же было такому случиться - на второй день попадается мне это обсуждение на "Планете Calculate". Разработчики Кальки решили просто - откатились сразу на Gnome 2, ожидая пока какой-нибудь из форков второго Gnome не приобретёт товарный вид.

Получилось как в лоровском меме "а я только скомпилировал 3.4!" Пришлось повторять операцию. Правда, теперь система ведёт гораздо быстрее (кто бы сомневался :) )
san4es: (gentoo_linux)
Обновился на Gnome 3.6. Когнитивный диссонанс... Конечно, по степени инопланетности с недавно виденной и щупанной Windows 8 даже близко не сравнить, но всё-таки торкает.

P.S. Жена как такую "красоту" увидела, сказала, чтобы её обновлять даже и не думал :)
san4es: (Default)
Эпичный фэйл любителей одной операционной системы. Таки даже офисного пакета этой системы. Хотя там, конечно, дело обстоит потоньше, но позлорадствовать можно. А также задаться вопросом: сколько раз ещё наступят на грабли совсекретные конторы и сотрудники?

P.S. В организаторах, судя по предположениям, целый интернационал - эксплойты для Ворда и прочего сляпали китайцы, модули - русскоязычные. Вот только бенефициары неизвестны.
san4es: (Default)
Обнаружил сейчас, что статический HTML, который как будто был полностью задавлен всяческим PHP и CMSами, переживает второе рождение. Однако этот ренессанс связан с упрощением создания страниц благодаря использованию генераторов статических сайтов.

На этой странице приведён исчерпывающий перечень таких генераторов. Информация, правда, на английском, однако составить представление можно.

В качестве основных можно выделить Jekyll, написанный на Ruby, и Hyde на Python'е.

В качестве языка разметки используется обыкновенный текст с небольшими усовершенствованиями: Markdown, ReStructuredText, мой любимый Asciidoc.

Также хорошо, что есть примеры сайтов, созданных при помощи Jekyll и Hyde. Соответственно, можно скачать, напильничком обработать и получить готовый сайт.

Такой сайт будет работать быстрее уже по определению. Ещё одна положительная сторона - подходит для использования в I2P-сети без ковыряния кода: у разных PHP-движков зачастую залипают куски, "светящие" наружу, да и многие отключают JavaScript на сайтах для большей безопасности.

Некоторые умельцы пошли дальше и создали системы статических комментариев для таких сайтов. Только хардкор! :)

Gnome 3

Mar. 11th, 2012 04:41 pm
san4es: (gentoo_linux)
Решил вчера обновить систему. Давно этого не делал, поскольку было много работы и не хотелось никаких случайностей и падений в процессе компиляния.

За то время пока я сидел на Calculate 11.9 сменился адрес оверлея - пришлось сначала удалить его из layman, потом опять добавить.

Потом я в консоли с ужасом узрел, что ставить будут около 550 пакетов! Давно здесь сидим! (С)

Где-то в середине процесса начали мелькать пакеты с названиями gnome-чтототам-3.2.0. Вот оно что...

До сих пор не могу привыкнуть к новому космическому виду. Меня, по правде, говоря и старый вполне устраивал, но, вот, пришлось. И ещё - субъективно, стало немножечко подтормаживать. А может и кажется, не знаю...
san4es: (reader)
Оказывается, что ещё 20 мая вышла новая версия замечательной штуковины, резко ускоряющей работу по составлению разнообразной документации, а также мои - по вычитке, а именно - Asciidoc. Если кратко, то используя определённое форматирование, кстати, совершенно простейшее, можно получить текстовый файл, который потом при помощи программы преобразуется в HTML, EPUB, PDF, RFT-файлы. Много там разного вкусного.

В этой версии изменений тоже много. Из основных (на мой взгляд, конечно же):

- добавление опции, позволяющей сразу встраивать шрифты в EPUB-файл. Я-то и так знаю, как это делать руками, однако делать это каждый раз после внесённого исправления муторно. Однозначно - молодцы!

- добавление нового бэкэнда - html5. Он, правда, пока от xhtml11 отличается только возможностью вставлять аудио и видео

- возможность размещать содержание не только сверху, как было раньше, но и сбоку, как в этом примере
san4es: (задумчивый)
Малой сейчас играет в "Неверь в худо" (Neverhood). То есть, не то, чтобы играет... Всяческие загадки, в которых надо записывать, зарисовывать, он, конечно же обходит, а если обойти нельзя - вызывает старшего, и тот, если пребывает в хорошем настроении, проходит трудные участки. Но мы маленько отвлеклись от темы. Так вот, финал игры, я в другой комнате. Вдруг слышу Гришка говорит: "Я пойду к папе, тут страшный Виндоус, он очень страшный и плохой!"

А там действительно есть такой отрицательный персонаж по имени Виндоус. С виду он страшный, реплики такие же: "Я научу тебя пить, курить и зависать, а лучше пить, курить и зависать одновременно". И глаза в разные стороны. А самое главное - фантастически жадный. Ещё в игре где-то проскакивал Майкрософт, естественно в соответствующем контексте. Это ж пиратский перевод.

Вот так с детства расставляются акценты :)
san4es: (Default)
Как оказалось ещё аж 3 декабря был обнародован финальный вариант Anti-Counterfeiting Trade Agreement (ACTA)

Как следует из текста на ЛОРе, соглашение предусматривает:

* Взаимное признание патентов всеми участвующими странами
* Контроль за перемещением контрафактных материалов на границе, обыск личных вещей на предмет наличия нарушений копирайта
* Ответственность провайдеров за хостинг и передачу трафика, содержащего контрафактные материалы
* Провайдеры будут обязаны раскрывать владельцам копирайта информацию о своих абонентах по первому требованию
* Запрет любого, включая свободное, ПО, которое может использоваться для просмотра материалов, защищенных DRM или преодоления средств защиты, даже если оно может использоваться и в других целях. Запрет на маркетинг и хостинг соответствующих проектов.
* Разрешение на проведение обысков с целью поиска контрафактных материалов даже в тех случаях, когда нет оснований для подозрений
* Введение уголовной ответственности за нарушение копирайта в тех странах, где такой ответственности нет
* Введение уголовной ответственности за помощь, соучастие и подстрекательство к нарушению прав интеллектуальной собственности
* Введение ответственности за преодоление DRM или разработку ПО, которое может использоваться для преодоления DRM и других технических средств защиты, даже если оно может использоваться в других целях
* Для возбуждения уголовного дела за нарушение копирайта не должно быть нужно заявление или согласие владельца прав интеллектуальной собственности. Компетентные органы должны заводить такие дела по своей инициативе
* Изъятие и ликвидация без промедления любых предметов с фальшивыми товарными марками без компенсации владельцу. Удаление товарных знаков не является достаточным основанием для возврата товара владельцу или реализации товара другим способом
* Изъятие и ликвидация без промедления любых материалов и оборудования, основное использование которых - производство товаров, нарушающих законодательство об интеллектуальной собственности
* Каждая участвующая страна обязана пропагандировать важность защиты интеллектуальной собственности среди населения, в том числе, в образовательных учреждениях.

Инициаторы - США, Евросоюз, Япония, Канада, Австралия, Швейцария, Южная Корея, Новая Зеландия, Мексика, Сингапур и Марокко, однако ожидается, что к соглашению присоединятся Бразилия, Россия и Китай.

И ещё вкусняшка - управляющий комитет будет иметь право выпускать дополнения к ACTA, разработанные при участии производителей контента, которые будут иметь силу закона, но не будут требовать ратификации в странах-участниках и не будут проходить юридическую экспертизу.

Это соглашение надо рассматривать в рамках затаскивания РФ в ВТО, которое нафиг не нужно. Ведь, по большому счёту, основополагающими элементами современного миропорядка наравне с резервной валютой долларом, МВФом являются ВТО и множественные соглашения по авторским правам, в области которых происходит перманентное закручивание гаек по просьбам американских (кто бы мог подумать!) корпораций.

По мере углубления кризиса противоречия между основными игроками мирового рынка будут нарастать. Следует обратить внимание, что текст соглашения начал разрабатываться ещё несколько лет назад, когда о грядущем кризисе имели представление весьма немногие. Теперь же его надо рассматривать как попытку накинуть узду на ураган. Страны периферии, осуществляющие догоняющее развитие, перестанут его соблюдать как только ослабнет экономическая или военная мощь США и ЕС.

С холуйским руководством России всё ясно, а вот Бразилия и Китай, как мне кажется, будут затягивать подписание соглашения по вполне понятным причинам. А там - либо ишак, либо падишах.

И да, Gnunet нам в помощь. С Linux вкупе :)
san4es: (reader)

eCub


Один из разработчиков известной программной библиотеки wxWindows Джулиан Смарт занимается не только библиотекостроительством, но и применяет её в различных своих проектах. Его фирма Anthemion также поучаствовала в набирающем силу EPUB-движении и создала eCub - легковесный редактор для создания электронных книг в формате EPUB. Это всё-таки не open source, а freeware, однако рассмотреть его не мешает.

Что же он может? На сайте перечислены следующие возможности, предоставляемые программой:

- Создание нешифрованных EPUB-файлов из текстовых или XHTML-файлов;
- Создание MobiPocket-файлов при наличии программы mobigen
- Редактирование текстового или XHTML-файла в простом внутреннем редакторе или в выбранных внешних редакторах
- Создание простой обложки для электронной книги
- Возможно создание заглавной страницы, страницы содержания и страницы с обложкой
- Может запускаться из командной строки как часть скрипта
- Возможна работа в портативном режиме (данные и установки программы хранятся локально)
- Конвертация текста книги в аудиофайлы ((WAV или MP3)

дальше )
san4es: (gentoo_linux)
Наконец-то, дождался!

Наверное, как многие осведомлены, с распознаванием текста в Linux существуют, э-э-э, скажем так, проблемы. До настоящего времени только две системы демонстрировали некие потенции, надежды. Это Cuneiform и Tesseract.

Первая стала открытой благодаря своим хозяевам - компании Cognitive Technologies, которая судя по всему отчаялась догнать лидера - FineReader, и отпустила своё творение на волю. Первые версии Cuneiform были в основном посвящены портированию кода из под Windows для Linux. Там ещё много работы, однако уже имеющиеся результаты внушали уважение. На какое-то время Cuneiform стал фаворитом среди OCR-систем для линуксоидов. Под него смастерили два графических интерфейса (сама программа как это водится консольная). Оба - под Qt. У меня - Gnome, и я стараюсь без нужды не тащить в систему ненужные вещи.

Вторая система, Tesseract, разрабатывается очень давно, релизы идут нечасто. Сам Tesseract является частью OCR системы Ocropus, которая может по задумке должна использовать Tesseract в качестве плагина. Но не будем об этом - там ещё пилить и пилить.

В отличие от Cuneiform Tesseract можно обучать, чем может заниматься каждый, если есть время, ничего сложного в этом нет.

С другой стороны для Gnome разрабатывается OCRFeeder - графический интерфейс для консольных OCR программ, которых в Linux уже, насколько я помню, штуки четыре как минимум.

И так совпало, что в оверлеях Gentoo появился ebuild для OCRFeeder и что самое главное - для Tesseract 3.0. После установки OCRFeeder подхватывает Tesseract в качестве движка, и можно рулить.

Для широты впечатлений я ещё подключил в OCRFeeder и Cuneiform, воспользовавшись советом. Кстати, с версии 0.7.1а OCRFeeder вроде должен сам это делать, без всякого колдунства.

Важная деталь - в настройках вызова Tesseract в OCRFeeder надо вставить распознаваемый язык, потому что по умолчанию идёт английский.

И что же выявило соревнование?

1. Tesseract кроет Cuneiform со страшной силой. Я даже не ожидал, поскольку предыдущий опыт работы с Tesseract был весьма разочаровывающим.

2. Tesseract стал весьма прилично распознавать - на странице остаётся минимум ошибок. Если ещё его и натаскать на остающиеся огрехи, то ситуация с OCR в Linux начинает представать в более радужном свете.

Да, конечно, ключевой вопрос - таблицы. Без них все эти достижения недостаточны. Однако тут уже вопрос упирается в анализ документа. А с этим пока что большие проблемы. OCRFeeder например использует unpaper для этих целей. Не сказал бы что очень удачно. Ocropus я не пробовал, там последний релиз был довольно давно. Так что - ждём-с!

А пока можно сканить чистый текст совершенно спокойно.
san4es: (gentoo_linux)
Попытался обновиться сегодня, оказалось что в профиль CLDG-10.9 засунули Chromium и Skype, который потащил за собой QT. И ещё там много всякого. Отключить всю эту радость нельзя. Потому пока что замаскировал app-misc/cldg-10.9. Будем ждать более гибких средств...
san4es: (gentoo_linux)
Только что прочёл на ЛОРе, что теперь OpenOffice собрался в свободное плавание. И более того, назвался LibreOffice. Как-то уж очень всё быстро и внезапно стало происходить. Ну, Java мне вообще-то перпендикулярно - языков-конкурентов как грязи, а вот офисный пакет... Смурно всё это...
san4es: (linux)
Я всё продолжаю свою любимую тему про возможности, имеющиеся у переводчика при работе в Linux.

Недавно обнаружил, что энтузиастами создан целый переводческий дистрибутив TuxTrans.

картинка )

Основан он, конечно, на Убунте. Можно установить на жёсткий диск, можно работать, загрузившись в режиме Live CD.

На борту присутствует весь набор программ, которые могут понадобиться профессиональному переводчику, Перечень приведён здесь. Есть и памяти переводов, и средства локализации софта. Всё сведено воедино, не надо ничего искать.

Я-то останусь на своём Calculate, однако новичкам стоит присмотреться.
san4es: (gentoo_linux)
Вот уже вторую неделю как работаю на сём изделии. Надо было систему переустанавливать, вот и решил попробовать.

Первые несколько дней плевался и поминутно думал о снеении нафиг. И бубнил под нос лоровское: "Поделие!!!" А всё потому, что привык к своему старому Gentoo, а тут - много новоразного.

Где-то дней через пять сносить раздумал и оставил.

В плюсах: понятное дело, с установкой маятни никакой, хотя признаться честно, я никогда из этого процесса не делал трагедии. И никогда меня не тяготило "собирать мир". Хотя я и не красноглазый :) Короче, всё встало прекрасно.

В минусах: ядро вышло жирнее моего ручного "поджарого", да и вообще Иксы памяти жрут гораздо больше. А так как на моей рабочей рухляди стоит 512 метров памяти, то я стал это замечать. Ещё много ненужного для меня программного обеспечения, которое идёт "из коробки". Здесь, по-моему, надо смотреть на другой проект тех же ребят под названием Calculate Linux Scratch, который позволяет состряпать свой дистрибутив, как лего. Там вроде собираются добавить кучу флагов, которые будут регулировать наличие тех или иных пакетов, что сделает сборку действительно лёгким занятием. Тогда претензии насёт ненужных пакетов отпадут сами собой - руки -то вот они!

Так что - продукт годный. С течением времени позаменяю остатки своих систем на Calculate для одинаковости.
san4es: (gentoo_linux)
Вообще-то звучит как тарабарщина, так что перевожу на "нормальный язык":

Google сделал открытым исходный код видеокодека VP8 под лицензией BSD. Этот самый кодек позиционируется как конкурент весьма распространённого, но при этом закрытого, а также в перспективе платного кодека H.264.

Кроме всего прочего последний называли убийцей Flash.

Событие однозначно положительное, поскольку перспективки введения отчислений за H.264 пугали население. Опять же огороженность данного кодека настраивала против его использования.

Теперь будем ждать результатов сначала допиливания до нормального состояния, а потом и тестирования.

P.S. А я когда-то лет 6 назад ещё на Винде жал кодеком VP6. Во, ностальгия!

Profile

san4es: (Default)san4es

June 2017

S M T W T F S
     123
45678 910
1112 13 1415 1617
18 192021222324
25 2627282930 

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 25th, 2017 06:36 pm
Powered by Dreamwidth Studios