Учреждения в Европе тратят около одного миллиарда евро в год на перевод документов c 23 официальных языков Евросоюза. Евросоюз выделил (http://cacm.acm.org/news/67677-multilingual-translation-syst...) грант в 2,3 млн. евро на разработку проекта Molto (http://www.molto-project.eu/) по развитию систем многоязычного автоматического перевода. При успешности данного проекта Евросоюз ожидает в будущих периодах значительное сокращение затрат на переводы.
В отличие от службы онлайн-перевода Google, проект Molto (Multi-lingual Online Translation) имеет своей целью сделать перевод настолько точным, насколько это возможно. Внимание уделяется точности, а не полноте перевода. Целевыми клиентами являются компании и учреждения, которые рассчитывают на правильно переведенную информацию с веб-сайтов и других документальных источников, а не на информацию, получаемую от конечных пользователей и потребителей. Разработчики используют структуру специал...URL: http://www.h-online.com/open/news/item/EU-machine-translatio...
Новость: http://www.opennet.me/opennews/art.shtml?num=25144
Вообще-то, русский не является официальным языком ЕС. Его планируют поддерживать в числе дополнительных.
Если нужен газ, лес и нефть - будут.
>Если нужен газ, лес и нефть - будут.Дадада, никакой нефти тем, кто не изучит арабский, русский, хауса и йоруба. А чтобы купить Sony Vaio надо обязательно освоить японский!
Вам на техническом форуме действительно необходимо блеснуть глупым шовинизмом?
Русский язык принят как стандартный язык межнационального общения.
ООН и Юнэско ;)
отсюда и катать :)
а учитывая кол-во славян в ЕС ...
Р.я., судя потому что я прочитал, включен туда просто благодаря тому, что кто-то еще до начала проекта поработал над соответствующей библиотекой Grammar Framework.В контексте MOLTO, ООН никого не волнует, финансирование выделяется для снижения расходов на переводы именно в органах ЕС.
И, кстати, в ООН нет "языков межнационального общения". Это называется "официальные языки ООН". И что б уже два раза не вставать: откройте для себя разницу между терминами "славяне" и "русскоязычные".
А потом все это запихать в микрочип и вшить в мозг)) и нах все эти школы ин.языков))) Побыстрее бы.
Пока не сдашь экзамен хотя бы по одному языку, чип не вшивать, недалёких и так хватает
>А потом все это запихать в микрочип и вшить в мозг))Да чего мелочиться то? А может уж проще сразу "cлава роботам"? :)
>>А потом все это запихать в микрочип и вшить в мозг))
>
>Да чего мелочиться то? А может уж проще сразу "cлава роботам"? :)
>Ну конечно, как обычно у вас Землян, всё через ж..у.
Не проще ли всем на одном языке говорить?!
Предлагаю Русский язык в наречие посёлка Гуево, Курской области.
Увлекательная разработка искусственного интеллекта такая увлекательная!
2,3 млн. евро - смешные копейки.
Сомневаюсь, что такая система будет создана в ближайшие 50 лет.
Имхо, официальные документы пишутся хорошо структурированным стилем.
И сделать систему автоматического точного перевода - цель достижимая.
А если пойти через разбор на уровне терминов и понятий, то оно может зайти очень далеко по полезности)
"тратят около одного миллиарда евро в год на перевод документов c 23 официальных языков Евросоюза"
сколько раз им уже предлагали всё писать на одном языке, даже подсказывали, какой лучше всего для этой цели подойдёт (разумеется это не английский), но нет, надо открывать футуристические проекты, которые с малой долей вероятности смогут решить поставленные проблемы, вместо того, чтобы узреть очевидное, эффективное и самое простое их решение... да-да, эсперанто...
чтобы правительство писало официальные документы на языке который не понимают граждане страны? да это просто "открытие" во взгляде как должно работать демократическое правительство.
>чтобы правительство писало официальные документы на языке который не понимают граждане страны?
>да это просто "открытие" во взгляде как должно работать демократическое правительство.
>Вопрос стоит более широко, тут нельзя сделать всё сразу, рубанув с плеча: нудно введение в школьную учебную программу годичного курса изучения, практика перевода необходимой тому или иному гос-ву документации на "свой" язык своими силами и раз уж в новости речь о системе автоматического перевода, то осуществление оного с эсперанто на национальный язык гораздо легче и точнее, чем с одного нац-ого на другой.
Или вы считаете, что демократическое правительство должно как и сейчас 90% переговоров вести на американском диалекте английского, который так же не понимают большинство граждан ЕС (уровень понимания даже среди студентов ужасен)? Или считаете правильным тратить половину(!) бюджета евросоюза на переводчиков?
> практика перевода необходимой тому или иному гос-ву документации на "свой" язык своими силами
> Или считаете правильным тратить половину(!) бюджета евросоюза на переводчиков?денег уйдет примерно столько же, вы лишь переписать хотите с какого бюджета оплачивать.
> о системе автоматического перевода, то осуществление оного с эсперанто на национальный язык гораздо легче и точнее, чем с одного нац-ого на другой.
поставить всех чиновников раком ради легче и точнее ? может быть, а может и нет
> сколько раз им уже предлагали всё писать на одном языке,
> даже подсказывали, какой лучше всего для этой цели подойдётАга, там идиоты сидят. Считать не умеют.
Идея не совсем к месту, но мож кто из спецов в курсе - если например в предложении сделать разбор имен и аббревиатур (их не так много, список конечен), а за этими пределами создать типа вики - если на складе есть точный перевод фразы, то подставить его, если нет, то сделать стандартный типа prompt и предложить перевести точнее и занести в правильный список. Ну и типа поиграться парами языков - например нужно с английского на немецкий, а есть только с англйского на идиш и с идиша на немецкий. Возможно еще пару простых операций, типа разбора сложноподчиненных предложений на группу простых (хотя это уже сильно к конкретному языку привязано). Такое никто не пытался делать?
Перевод фразы сильно зависит от контекста из которого эта фраза взята. Так что такие таблицы были бы просто бесполезны.
>Перевод фразы сильно зависит от контекста из которого эта фраза взята. Так
>что такие таблицы были бы просто бесполезны.Да, но анализ контекста требует интеллекта и преложения данных через призму восприятия этого интеллектуального нечто ;) О таком говорить не приходится, во всяком случае пока. А вот автопереводчики на мой взгляд страдают как раз манией разобраться в структуре фразы и потому переводят вообще непойми что, хотя в подавляющем большинстве случаев стандартное предложений подразумевает конечный и очень узкий набор понятий их взаимосвязей однозначно имеющий отражение в любом другом достаточно развитом языке (я не говорю про поэзию и "междустрочные" значения). Так вот таких стандартных предложений и можно накидать в базу. По примерным прикидкам процентов 80 технического текста так переведется.
Местами, слегка, я являюсь специалистом по компьютерной лингвистике, и последний год занимаюсь именно машинным переводом.Всё очень плохо начиная с морфологии, синтаксис - это в настоящее время куча костылей, с семантикой ..., впрочем, сходите на http://aot.ru - гляньте на исходники (LGPL), вам точно поплохеет. Да, заметили вы верно, все технологии Промта пролетают с тупой числодробилкой кластеров гугла. Только это, лишь подтверждает тезис о том, что теория отстала от техники как вирус от млекопитающегося. Лет 50 - это, конечно, много, но 10 - минимум для какого-либо прорыва.
По поводу простых решений - очень вас огорчу. Европейские языки это и венгерский(вспомнит е причины созданияя huspell) и болгарский, который вовсе не славянско-балтийский по синтаксису. Собственно, германские языки - миф, ведь английский типично корневой а немецкий типичный флективный.
Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный подход окажется столь слабым и неэффективным для перевода с языка на язык?
>Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный
>подход окажется столь слабым и неэффективным для перевода с языка на
>язык?Ваше заблуждение понятно, но боюсь, это очень разные, не пересекающиеся области.
>Статистические системы переводят с высоким качеством устную речь в текст. Неужели данный
>подход окажется столь слабым и неэффективным для перевода с языка на
>язык?К сожалению, перлы на перле - детский лепет, по сравнению с фокусами,результатами контекстной зависимости естественных языков.
В русском яязыке 200 000 базовых словоформ, 3 000 000 производных, и 5 200 000 семантических единиц из этих словоформ. Средняя длина предложения 10 слов, средняя длина слова 5 символов(цифра странная, но если учесть кол-во одно-двух-буквенных предлогов и союзов, объяснимая) . Непроективность русского языка (я памятник себе воздвиг нерукотворный;памятник я себе воздвиг нерукотворный;памятник я воздвиг себе нерукотворный;памятник я воздвиг нерукотворный себе; и тд) позволяет тупо дать оценку для разбора 70% предложений, как число упорядоченных сочетаний по 10 из 5200000 ~= 2E12, только для хранения базы потребуется 2байт* 10слов * 5букв * 2Е12= более 100 000 терабайт. И это для одного языка и попадание только 70%.
Так что на свой вопрос можете ответить сами.
Это напоминает мне вероятностный расчёт невозможности появления жизни на земле. Там просто берется и рассчитывается вероятность повторения среднего фермента "аминокислота к аминокислоте". Естественно это неправильно, поскольку фермент работает (не всегда даже снижая свою эффективность) и при отклонениях в последовательности аминокислот его составляющих, главное что бы активный центр остался с точки зрения участников реакции тем же.Столько сколько Вы подсчитали по объему, столько просто не существует текстов, и вполне возможно, даже не было произнесено вообще за всю историю конкретного языка.
В Вашем примере достаточно заменить предложение на предложение из предлогов-местоимений-глаголов и подставленных абстрактных "существительных" и "прилагательных". А для Существительных и Глаголов завести таблицу частоты совместной встречи в одном предложении и в соседнем.
Число комбинаций сократится существенно.
А если еще не пытаться генерировать все возможные порядки слов, а посмотреть на базе реально существующих текстов, то и получится тот самый статистический способ перевода :)
Интересна ваша точка зрения на такой способ.
Сначала разпарсить фразу, разбить на понятия.
Например:
Поставщик обязуется поставлять в соответствии с условиями настоящего Договора товар, наименование, количество и цена которого указаны в Приложениях к настоящему Договору (далее по тексту – «Товар»), а Покупатель обязуется принимать и оплачивать Товар на условиях, указанных в настоящем Договоре.Разделить на "Поставщик", "обязуется поставлять", "в соответствии с условиями настоящего Договора", "указаны в Приложениях" и т.д.
Распарсить в некоторую структуру.
А потом из неё создавать текст на нужном языке.
Я говорю только про юридические документы - они вроде как неплохо структуризированы, плюс используется конечное количество понятий.
Правда, я догадываюсь про объем работ)
>Распарсить в некоторую структуру.так это уже другая задача :) имеющая впрочем место :)
К сожалению, это только кажется, что все просто с юридическими текстами. Даже в них встречаются такие синтаксические конструкции, что понять о чем речь можно только по смыслу слов. А задача понимания смысла упирается в задачу создания ИИ. Со всеми вытекающими...