Новости Энциклопедия переводчика Блоги Авторский дневник Форум Работа

Декларация Поиск О нас пишут Награды Читальня Конкурсы Опросы








ГП-цитатник

Практическая англо-русская транскрипция

Модераторы: Dragan, Valer'janka

Re: Практическая англо-русская транскрипция

Сообщение borysich » Вт апр 13, 2010 16:42

Однако надо отдать проге должное:
jobs a good'un - джобс эй гуд'ан :-)
Communication usually fails, except by accident (Osmo A. Wiio)
Аватара пользователя
borysich

 
Сообщения: 4529
Зарегистрирован: Пн фев 16, 2009 18:51
Язык(-и): En>Ru





Re: Практическая англо-русская транскрипция

Сообщение Alter Ego » Вт апр 13, 2010 22:35

Klyshinsky писал(а):Интересно как он сам себя именовал?

(Интересный вопрос. Интересно - в свете рассматриваемых проблем - почему Вы им, собственно, задаетесь? Или Вы про мягкий знак? :wink: ) Про Вальполя: по-русски - никак не именовал. Более того, кириллическим алфавитом тоже не владел, видимо... :wink:
Klyshinsky писал(а):Мы работаем над этой проблемой. Осталось два принятых сейчас. Чур город в Каролине пока добавлять не буду.

А все оставшиеся книги (и зафиксированные в них варианты) взять бы, да сжечь? :shock: И чем Вам город не угодил - тоже ведь люди живут. Я вашего проекта начинаю уже побаиваться, честно говоря... :-(
Alter Ego
Читатель Розенталя
 
Сообщения: 13617
Зарегистрирован: Вс дек 04, 2005 16:25
Откуда: Петербург

Re: Практическая англо-русская транскрипция

Сообщение Murena » Ср апр 14, 2010 03:33

Klyshinsky писал(а):Про
Tremblay-en-France => Трэмбле-эн-Франс
Jean-Loup Fiévet => Жан-Луп Фьеве
Seine-Saint-Denis => Сен-Сэн-Дени
Hervé Ghesquière => Эрв Гескье

С последним всё понятно - веб-интерфейс откусывает диакритики (камень про бета-версию принят в открытую грудь, лечу к земле теряя перья). Остальные три не могли бы Вы откомментировать?


Пожалуйста.

Tremblay-en-France - Трамбле-ан-Франс (а обоих случаях тут носовой звук "а", и непонятно, почему в вашей программе иначе.

Jean-Loup Fiévet => Жан-Лу Фьеве (финальная буква "р" тут не читается).

Seine-Saint-Denis => Сена-Сен-Дени (название департамента, составная его часть - название реки Сена (традиционный в русском вариант). Кроме того, "э" в русской графике при передаче французских имен собственных принято ставить только в начале слова или после иной гласной.

Ну, а ситуация с Hervé Ghesquière вообще проблемна, даже если проблему с диакритикой в вашей программе оставим за скобками. Это может быть как Эрве Гескьер, так и Эрве Гекьер (и выяснить подобное можно только у самого носителя фамилии).
Murena

 
Сообщения: 5581
Зарегистрирован: Ср июл 28, 2004 08:21
Откуда: Москва
Язык(-и): Fr-Ru, Ru-Fr, En-Ru, Esp-Ru

Re: Практическая англо-русская транскрипция

Сообщение Клон Голландца » Ср апр 14, 2010 11:22

Klyshinsky писал(а):составлял сам себе базу оригинал-перевод, писал правила, смотрел где не сходится, вносил исправления.


1. То, что вы описали, - не тестирование, а процесс обучения алгоритма. Для обучающей (т. е. "идеальной") выборки, по которой подбираются значения параметров алгоритма в процессе обучения, функция ошибки и должна принимать минимальные значения. Но и на этом этапе уже есть сомнения по поводу корректности. Процесс формирования обучающей выборки и процесс подгонки параметров должны быть разделены, а у вас ими заведовал один и тот же человек, который формировал эту выборку неизвестно по каким критериям.

2. После обучения алгоритма должна быть сформирована представительная контрольная прогностическая выборка (правильно рандомизированная). Если ваш алгоритм транскрипции одинаково применим к именам собственным и обычной лексике, то такую контрольную выборку можно сформировать по любому двуязычному словарю. Ошибка, полученная в результате тестирования на данной выборке (и уже без подгонки параметров алгоритма), и будет показателем качества работы программы. Этого этапа в вашем описании я не увидел.

3. Теперь про транскрипцию уже существующих имен собственных. Вы ее для чего задумали: для того чтобы человек, приезжающий в столицу Франции мог правильно произнести ее название, не зная французского, или для того, чтобы он правильно мог его написать по-русски? Непонятно. В последнем случае алгоритмизация транскрипции уже существующих имен собственных – дело безнадежное. Это задача для базы данных. У вас она называется словарем исключений, но ее объем в 3000 слов (все языки? только английский?) вызовет недоумение у кого угодно. Посмотрите, например, словари английских имен и фамилий Рыбакина и отсканируйте пару атласов.

4. Судя по всяким «лукупам», «чайлдренам» и «чарисмам», у лингвистов вы свой алгоритм не тестировали. А как обстоит дело с рецензированием ваших статьей и книг специалистами по языку?

5. Ваша работа претендует на научность. Не следует ли сравнить работу своего алгоритма с работой других программ? Наверняка, ведь, есть: у Артемия Лебедева на сайте, например. Чем ваш алгоритм лучше?
Клон Голландца

 

Re: Практическая англо-русская транскрипция

Сообщение Klyshinsky » Ср апр 14, 2010 14:24

Спасибо за помощь, но боюсь я еще воспользуюсь Вашей доброжелательностью.

Murena писал(а):Jean-Loup Fiévet => Жан-Лу Фьеве (финальная буква "р" тут не читается).
Seine-Saint-Denis => Сена-Сен-Дени (название департамента, составная его часть - название реки Сена (традиционный в русском вариант). Кроме того, "э" в русской графике при передаче французских имен собственных принято ставить только в начале слова или после иной гласной.

Исправил, но пока у себя, а не на сайте. Чувствую, придется самому прошерстить Ермоловича.

Murena писал(а):Tremblay-en-France - Трамбле-ан-Франс (а обоих случаях тут носовой звук "а", и непонятно, почему в вашей программе иначе.

Ну, а ситуация с Hervé Ghesquière вообще проблемна, даже если проблему с диакритикой в вашей программе оставим за скобками. Это может быть как Эрве Гескьер, так и Эрве Гекьер (и выяснить подобное можно только у самого носителя фамилии).

Вот тут хочу заметить, что программа все-таки изначально предназначалась для именных групп. Потом (с изрядной натяжкой) для имен собственных. Так что всякий индепенденс - это, конечно, здорово, но... Но в имени тоже может встретиться, так что да, надо чистить, думать, править. Но основной задачей программы было тиражирование знаний. Есть три тысячи мест, в которых абсолютно незнакомые с языком люди должны проводить транскрипцию. Бухгалтерские документы, нотариат, авторское право, визовые отношения. И только не говорите, что в МИДе сидят большие специалисты. Они там сидят, но документы принимает жена торгпреда, которая учила немецкий, приехала с мужем из Франции, а сидит в ЮАР и перепирает всех по привычке с французского, а не с арикаанса. Соответственно последний пример как раз весьма показателен. кто он не известно, а в бумагах написать надо. Давайте напишем как-нибудь, чтобы было похоже. Чтобы он возмутился, что е немое, но хотя бы себя узнал, когда его имя прочтут.
В случае с эн - это было осознанное решение. Я четко понимаю, что здесь мы пошли против традиции, но задачей было создать восстанавливаемое имя. То есть чтобы по русскому написанию можно было сгенерировать что-то похожее на оригинал. Я прекрасно осознаю какую бурю я этой фразой поднимаю. Я не предлагаю сжечь Ермоловича с его книгами, не претендую на переделку учебников. Просто в нашей задаче лучше было сделать не как у всех, но восстанавливаемое. В правилах поменять - дело трех минут, но вот тут скорее вопрос разыскания истины. Все равно ведь традиция меняется, Вальполь тому примером. Так уж если идем к машино-читаемым документам и не брезгуем нулевым падежом, то может одну букву поменять не слишком большой грех?
Я сам с французским плох, но у меня было ощущение, что французы en и an произносят чуть по-разному, так? В этом случае наше решение слегка сходится с практикой.
Решение принимал и я тоже, но ко мне пришло аж два человека, знакомых с французским.
Кстати, Вальполем я интересовался с исторической точки зрения. Может с ним ситуация как с Хафом, все Хью, один он Хаф.
Ну и на сладкое, 2% - это неснижаемый остаток, а не точность. Даже если все слова загнать в базу, 2% слов будут иметь несколько вариантов и поди разберись, какое из исключений правильное.

Я нашего проекта тоже начинаю побаиваться. Если так дальше дело пойдет решение будет одно - выкинуть английский, как это сделали все остальные. С французским пока лелею надежду.
Klyshinsky

 
Сообщения: 7
Зарегистрирован: Сб апр 10, 2010 13:15

Re: Практическая англо-русская транскрипция

Сообщение Klyshinsky » Ср апр 14, 2010 15:01

Клон Голландца писал(а):
1. То, что вы описали, - не тестирование, а процесс обучения алгоритма. Для обучающей (т. е. "идеальной") выборки, по которой подбираются значения параметров алгоритма в процессе обучения, функция ошибки и должна принимать минимальные значения. Но и на этом этапе уже есть сомнения по поводу корректности. Процесс формирования обучающей выборки и процесс подгонки параметров должны быть разделены, а у вас ими заведовал один и тот же человек, который формировал эту выборку неизвестно по каким критериям.

2. После обучения алгоритма должна быть сформирована представительная контрольная прогностическая выборка (правильно рандомизированная). Если ваш алгоритм транскрипции одинаково применим к именам собственным и обычной лексике, то такую контрольную выборку можно сформировать по любому двуязычному словарю. Ошибка, полученная в результате тестирования на данной выборке (и уже без подгонки параметров алгоритма), и будет показателем качества работы программы. Этого этапа в вашем описании я не увидел.

3. Теперь про транскрипцию уже существующих имен собственных. Вы ее для чего задумали: для того чтобы человек, приезжающий в столицу Франции мог правильно произнести ее название, не зная французского, или для того, чтобы он правильно мог его написать по-русски? Непонятно. В последнем случае алгоритмизация транскрипции уже существующих имен собственных – дело безнадежное. Это задача для базы данных. У вас она называется словарем исключений, но ее объем в 3000 слов (все языки? только английский?) вызовет недоумение у кого угодно. Посмотрите, например, словари английских имен и фамилий Рыбакина и отсканируйте пару атласов.

4. Судя по всяким «лукупам», «чайлдренам» и «чарисмам», у лингвистов вы свой алгоритм не тестировали. А как обстоит дело с рецензированием ваших статьей и книг специалистами по языку?

5. Ваша работа претендует на научность. Не следует ли сравнить работу своего алгоритма с работой других программ? Наверняка, ведь, есть: у Артемия Лебедева на сайте, например. Чем ваш алгоритм лучше?


1 и 2. Как я уже говорил, потом была совсем другая база. Но факт, 2% были получены на тестирующей выборке. Это скорее не точность, а неустранимая погрешность обучения. Выходит, что да, про настоящее тестирование в статье ни слова. Сразу хочу сказать, что базы клиента были уничтожены и результаты работы с ними не могут быть опубликованы по условиям соглашения - коммерческая тайна. Секретность - неприятная вещь и плохой повод отказать в информации, но таковы реалии. Насчет еще одного человека - повторюсь, что мы не Яндекс, такой роскоши позволить себе не могли. Хотя когда получалось, делали.

3. 3000 слов только в английском. Да, мало. Думаю, что Вики нам поможет. Средства на этот проект закончились лет 5 назад, так что чудес скорости не будет. Задача была именно вторая и дело это, да, безнадежное, но, увы, необходимое. Задача была поставлена не просто так, она обязана была быть решена. Государство потратило на нее деньги, появились какие-то результаты. Мы посчитали, что будет честнее, если народ с этого что-то поимеет. В происходящем вижу прекрасный пример научной дискуссии и попытку внедрения результата в массы. :) Если в результате дискуссии выяснится, что метод никуда не годен и есть лучший, я лично сниму проект с сайта. Я пришел на сайт специалистов именно за сторонним взглядом. Причем это место является пока единственной площадкой - никакой раскрутки в других местах не было. А если дела пойдут плохо - и не будет.

4. Нет, я, конечно, не специалист по фонетике. Я вообще программист. Но я эти правила и не писал. Писали их люди с как минимум филологическим образованием (в основном), которые кое-что понимают. Как выясняется не всё и не всегда. Про рецензирование... Гиляревский просмотрел несколько языков. По некоторым было кросс-тестирование, и даже стороннее (и скорее благожелательное, чем, такое, после которого валидолом отпиваться надо), но таких мало. Вопрос корректен и в точку. Но всё не так плохо, как Вы задаете вопросы. Что было в наших силах мы делали. Вопрос в силе этих сил.

5. В 2000 году не было никакого стороннего алгоритма. Начинал Knight на Западе и всё. Но он делает не то и не для того. И вообще, им эта проблема более далека, чем нам. У нас были только работы в области лингвистики, типа Гиляревского и Старостина. Тот же Лебедев ссылается на нашу книгу. Это сейчас всего много, а тогда... Вобщем, лично мне надоело, что они молодцы, а у нас результаты есть, но их никто не видит. Но если бы старшие товарищи не поставили вопрос, что давай уже выкладывай, может и не обсуждал бы я тут нашу систему. Так что в той статье правильно ничего не написано про аналоги. А сейчас на серьезное исследование нет времени.

Резюмируя. Да, обучение было поставлено ни шатко, ни валко, да, если бы мы работали вместе с Институтом стран Азии и Африки, то результаты были бы лучше. Да, безответственные мы личности (я особенно) и могли бы более корректно формулировать результаты, а не пытаться вытянуть их красивыми фразами. Но наша работа была новаторской и поднятый тогда информационный шум нашел какой-никакой отклик. Возможно, что лучше бы нам было остаться таким вот шумом - лучше бы о нас народ думал. Возможно, шум подняли и не мы, а те, кто нашел денег на проект. Но мы трудностей не боимся и надеемся поработать над собой. Ну или плюнуть и похоронить этот проект.

В любом случае - спасибо за независимую экспертизу.
Klyshinsky

 
Сообщения: 7
Зарегистрирован: Сб апр 10, 2010 13:15

Re: Практическая англо-русская транскрипция

Сообщение Клон Голландца » Чт апр 15, 2010 15:04

Klyshinsky писал(а):Сразу хочу сказать, что базы клиента были уничтожены

Если найдется время или активный студент, попробуйте погонять алгоритм вот на этом примере: английские фамилии.

Удачи.
Клон Голландца

 

Re: Практическая англо-русская транскрипция

Сообщение Murena » Пт апр 16, 2010 01:38

Klyshinsky писал(а):В случае с эн - это было осознанное решение. Я четко понимаю, что здесь мы пошли против традиции, но задачей было создать восстанавливаемое имя. То есть чтобы по русскому написанию можно было сгенерировать что-то похожее на оригинал.

А смысл?
Тогда давайте, как в XVIII веке, писать не "Дидро", а "Дидерот" - вот уж будет четко восстанавливаемо. И плевать на произношение.

Klyshinsky писал(а): у меня было ощущение, что французы en и an произносят чуть по-разному, так?

Нет, не так.
Носовое [a] звучит одинаково, вне зависимости от графики.
(Другое дело, что -en- может в одних ситуациях читаться как носовое "а", в других - реже - как носовое "е". И это не алгоритмизируемо, а должно быть введено как индивидуальные соответствия.)

Кстати, Ермолович - не франкофон, и для меня некоторые моменты в его таблицах в отношении французского представляются неудачными.
Murena

 
Сообщения: 5581
Зарегистрирован: Ср июл 28, 2004 08:21
Откуда: Москва
Язык(-и): Fr-Ru, Ru-Fr, En-Ru, Esp-Ru

Пред.


Словари русского языка

www.gramota.ru
Словарь Мультитран
Язык

Вернуться в Передача имен собственных

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3