Закончил первый коммерческий перевод с использованием оффлайн МП Argos и сделанной самостоятельно модели перевода в паре ИТА-РУС.
Модель чисто техпереводческая - руководства, стандарты, техкаталоги, спецификации и т.п. Объём очищенной от тегов и некоторого мусора ТМ для создания модели - порядка 700 000 сегментов из которых беспроблемных примерно 50-60%. Весь мусор не чистил - хотел понять, стоит ли вообще овчинка выделки.
Полученный объём модели 110 мб.
Обучал примерно до 96-97% ибо уже с 94-95% сходимости почти не стало и начались колебания на уровне 94-97%.
Результат:
На технических текстах близкой тематики субъективно я бы оценил его лучше гугля и немного хуже DeepL. Но по математическим метрикам он чуть хуже Гугла, и значительно хуже DeepL.
Огромным преимуществом оказалось то, что модель выдаёт перевод с моим стилем изложения, а это по опыту часто требовало ОЧЕНЬ МНОГО времени на исправление (мне приходилось и отказываться от доперевода, когда стиль уже переведённого резко отличался, а часто, в разной мере, и переписывать уже переведённое другими).
На образце из художки, обильно приправленном идиоматическими оборотами, модель ожидаемо выдала неадекватный перевод.
Вывод: Датасет для получения модели не обязательно должен быть очень большим (ориентир 400-500 тыс. качественных сегментов), но должен быть максимально близким по тематике и стилю переводчику/редактору МП.
-> Для разных тематик требуются разные датасеты. -> Идея Промта одной моделью охватить целое языковое направление вызывает большие сомнения.
Дальнейшие пути улучшения видятся следующими:
1. Дальнейшая очистка ТМ для обучения от кривых сегментов с целью снижения требовательности к выч. мощностям.
2. Пополнение ТМ лексикой, свойственной для художки, сопоставлением художки.
3. Разбор причин несходимости. Не исключаю, что это особенность применения модели, сделанной для нефлексивного языка, к флексивному.
Учитывая последние новости о предстоящем выходе специального адаптера для обучения языковых моделей
Nvidia представила чудовищный двухчиповый ускоритель H100 NVL со 188 ГБ памяти для обучения языковых моделейhttps://www.ixbt.com/news/2023/03/21/nv ... l-188.htmlhttps://habr.com/ru/news/t/724150/в ближайшие годы можно ожидать быстрого повышения качества МП до уровня хороших переводчиков в первую очередь для английского и китайского языков....
PS. Касательно ChatGPT4 сначала сказали, а потом подтвердили интересную вещь - система уверенно выдаёт цитаты с библиографическими ссылками на источники, вплоть до номеров страниц, но указанные цитаты в данных источниках ЧАСТО отсутствуют - т.е. ChatGPT4 намеренно, из-за алгоритмической ошибки или ошибки в датасетах, выдаёт ересь... Пока это единичное достоверное наблюдение... Поэтому будьте внимательны...
Ну и если кто-то подтвердит или опровергнет - are welcome...
Но IMHO сильно ждать доброго я бы не стал.... Не исключаю, что смысл всех этих AI сейчас - новый изощрённый способ засорения мозгов, которые приобрели за эти годы некоторый иммунитет к искусно завуалированной лжи от наших западных недругов.
Any man who is under 30, and is not a liberal, has not heart; and any man who is over 30, and is not a conservative, has no brains. - Sir Winston Churchill