https://www.science.org/content/article ... rs-disease
может вообще не стоит увлекаться чтением той литературы?
А то приобщится ваш коллега к лиге πDR-асов от медицинской науки....
Касательно остального - приспособить можно что угодно, но учитывая то, что большинство медицинских документов конфиденциальные, едва ли в датасетах для натаскивания переводческих машин медицинские переводы составляли существенную часть....
Какие словари кроме Мультитрана? reverso и linguee по медицине помогают или для контекстуального поиска есть другие более подходящие ресурсы?
А чем вашего знакомого бумажные словари не устраивают. По медицине основные словари давно уже переведены в Лингво... И в отличие от мультитрана там хотя бы можно сослаться на словарь в обосновании выбора перевода...
И что можно посоветовать для приближения перевода именно к медицинской терминологии без больших вложений денег, для личного применения?
Большие — это какие? Для кого-то 100 000$ не много, а кому-то и 5000₽ большие деньги....
Чтобы что-то куда-то присобачивать надо сначала задаться вопросом - а есть ли где достаточно большой датасет выверенных параллельных медицинских текстов? Если да, то дальше можно думать - САТ, Промт, Lingvanex... Если нет - о чём разговор....
Касательно PDF - а чем автора просто скопировать текст в суматре например, не устраивает? Возня с графиками и картинками в любой программе - вручную...
Касательно бесплатного - сайчас за пару сотен проще купить какой-нибудь 10-летний сканер с ФайнРидер 8/9 в комплекте. Новые версии данной программы не лучше, а часто хуже (по производительности, необходимым ресурсам и т.п.)...
Касательно бесплатного сопоставителя - LF-Aligner, но результаты вряд ли порадуют... Все сопоставители, и платные и бесплатные, хорошо работают только на и так почти идеально параллельных текстах.
А на адаптированных, с пропусками или дополнениями переводчика, переработанными с учётом местных реалий книгами лажают так, что проще вручную сопоставить в двух рядом расположенных окнах простого текстового редактора с нумерацией строк.
Касательно распознавания речи - почти все онлайновые движки, дающие более/менее результат, не наши и либо уже блокируют Россию, либо могут сделать это в любой момент (сейчас показательным моментом будет, что сделает гугл после штрафа). Вряд ли стоит строить на них серьёзные расчёты.
Voco плохо распознаёт незнакомую лексику (которой в медицине будет будь-здоров), хотя наверняка многое ещё и играет микрофон/дикция.... Но коллеги, вряд ли будут в восторге от чёткого дикторского начитывания, учитывая тот факт, что многие даже громкие клавиатуры коллег переваривают с трудом.