Нейросети Whisper и ChatGPT превращают аудио в супер-тексты

By Sinin28.02.202328.02.2023Заметки, Нейросети

Уважаемые дамы и господа, дорогие читатели! Позвольте мне преподнести на ваш суд уникальный эксперимент с использованием нейросетей. Целью данного эксперимента является создание текста, сформированного на основе вербальной коммуникации, который будет представлять собой истинный шедевр литературного искусства.

В данном эксперименте мы задействуем две нейросети. Первая из них, Whisper, транскрибирует звуковую информацию в текстовый формат. Это настоящее воплощение совершенства, которое умеет распознавать слова-паразиты, разделять фразы и расставлять знаки препинания согласно всем необходимым правилам языка. Она является нашим первым верным помощником в данном эксперименте и практически не имеет конкурентов.

Вторая же нейросеть, chatGPT, будет использована для того, чтобы преобразовать полученный текст в литературное произведение, изобилующее изысканными выражениями и написанное в неповторимом стиле. Я надеюсь, что она справится с поставленной задачей на высшем уровне.

Суть эксперимента заключается в том, что я сейчас надиктовываю текст наиболее запутанным и изощренным образом, чтобы создать настоящий вызов для нейросетей. Мы проверим, насколько хорошо они справятся с транскрибированием и преобразованием такого сложного материала в искусство слова. Если вы читаете данный текст и он выглядит вполне связным и литературным, значит, нейросети справились с поставленной перед ними задачей. В таком случае я рад, что вы стали свидетелями технического чуда, которое подтверждает нашу веру в возможности и достижения искусственного интеллекта.

И напоследок, радуясь благородному искусству машинного обучения и пытаясь приблизиться к тому уровню культурной элегантности, что выгодно контрастирует с моим начальным изложением, я прикладываю исходное аудио в первоначальном формате без каких-либо вмешательств, прямо с телефона. Я рад сообщить, что запись, которую вы имеете возможность прослушать, является той оригинальной, неотфильтрованной версией, с которой работали нейросети.

Также я чуть ниже привожу текст, сформированный первой нейронной сетью, Whisper. А сейчас вы читаете итоговый результат уже после редактуры нейросетью ChatGPT, которая и превратила на ваших глазах черствый хлеб в сладкую конфетку, достойную престижной литературной премии.

Пожалуй, я даже рассмотрю возможность озвучивания итогового эссе с помощью еще одной нейросети, «Алиса», чтобы убедиться в существенной разнице между моим первоначальным неуклюжим стилем и тем, что было получено в результате.

Таким образом, позвольте мне выразить искреннюю надежду, что данный эксперимент будет достойно оценен Вами, уважаемые дамы и господа. Благодарю Вас за внимание к моему скромному труду и прощаюсь с Вами!

* * *

Это был текст, обработанный нейросетью ChatGPT из вот этого, который подготовила нейросеть Whisper на основе аудио, приложенного к посту:

Всем привет, я сейчас хочу провести эксперимент с нейросетями. И уже в посте вы должны увидеть его результат. Результат должен быть такой. Я сейчас говорю кое-как и постараюсь включить как можно больше всяких слов паразитов в эту речь и соответственно в этот текст, который потом должен быть транскрибирован и отредактирован нейросетью для сайта. И как бы значит, вот и пытаюсь запутать сейчас нейросети. Две нейросети будут участвовать. Одна транскрибирует звук в текст, то есть то, что я сейчас надиктовываю, она так сказать превратит сначала в какой-то хоть сколько-то читаемый текст и надо сказать, что ту нейросеть, которую я нашел, точнее жена у меня нашла, она вообще-то уже транскрибирует очень клево. Она удаляет сама уже какую-то часть, по крайней мере слов паразитов, расставляет знаки препинания, разделяет на фразы. В общем, по сравнению с каким-нибудь там VK или Google или кто еще там транскрибирует вот так вот вживую голос. В общем, это небо и земля. Вот соответственно, вот это первая нейросеть должна автоматом просто обработать голосовой файл и выдать результат просто в виде текста, а вторая нейросеть – это уже chatGPT, ну первая – это Whisper, тоже от OpenAI, а вторая, соответственно, chatGPT. Вот значит, вторая нейросеть должна уже превратить этот мой сумбурный текст, сумбурное изложение в что-то такое литературное и даже изысканное. Значит, я постараюсь сейчас говорить буквально как будто с лавочки. А если вы это уже читаете в таком виде, как будто с вами говорит доктор наук или хотя бы интеллигент, ну значит, получилось.

* * *

Несколько комментариев:

1) ChatGPT пока что с некоторым трудом работает на русском языке и обрабатывает гораздо более короткие блоки информации, нежели на английском, так что потребовалось сделать несколько итераций и скомпилировать финальный текст из фрагментов. Возможно, проще переводить всё сначала на английский, а потом с английского. Но, в общем, это в любом случае только вопрос времени, когда такого рода нейросети заработают в полную силу на всех языках.

2) Аудио я изначально записал подлиннее, но продолжение по итогу выкинул, потому что текст получается слишком длинным и смысл в нем уж очень сильно ускользает, потому что и в аудио я нанес, грубо говоря, такой пурги, что в ней сам уже по итогам с трудом разбирался. Так что чудо чудом, но смысл в тексте, конечно, должен быть, иначе нейросети придумают какой-нибудь свой, и вполне возможно, что запутанный и абстрактный.

3) Ну и самое главное ограничение сейчас, что касается ChatGPT — в объеме оперативной памяти. Если ей дать чуть больше информации, чем она способна «переварить» (даже если она влезает в установленный лимит сообщения), то она начинает чудить. Ну и длинные диалоги по этому же с ней вести, особенно на русском языке, пока бессмысленно. Но, опять же, это только вопрос времени, когда технологические возможности такого рода нейросетей расширятся. Так что, будем наблюдать.

Но даже на этом уровне, благодаря дополнительным скриптам на питоне (которые отчасти разработала та же ChatGPT), я уже автоматически обрабатываю тексты любой длины, просто по кусочкам. И таким образом я уже обработал несколько материалов из системы БАЗОС (с другими инструкциями, конечно, без лишней изысканности) и продолжу это делать. Так что транскрибации ко всем учебным и т. п. материалам у нас гарантированно будут. За что спасибо, хоть и с опаской, техническому прогрессу. =)

А. С.,
28.02.2023

p. s. Исходное аудио и итоговое, зачитанное Алисой — прилагаю к посту (см. ВК).

p. p. s. Решил подключить ещё и нейросеть «D-ID», чтобы сделать видео. Для результата взял за основу первую попавшуюся картинку по запросу «самая красивая актриса». Моника Беллуччи оказалась вполне к месту. Ну а для исходника Форест Гамп тоже отлично подходит. =)

p. p. p. s. В комментариях я дам ссылки на инструкцию по установке Whisper (потребуется минимальный навык работы с консолью и опыт установки Phyton), а также ссылку на бесплатный сервис на его основе, который, правда, уже стал частично платным, так что лучше поднимать у себя на компьютере, конечно, эту систему, благо это совсем не сложно (см. ВК).

Константин Николаев ❤️

2023-03-01 21:29:30 — #13692

Это Моника... Беллуччи! Как в фильме "Малена", или "Сколько ты стоишь ". 😍🤗

Дина Полянская ❤️

2023-03-01 10:29:37 — #13688

Очень круто, но ощущение совершенно жуткое почему-то)))

Артём Синин

[Дина], судя по отзывам, у кого-то такие видео вызывают эффект зловещей долины, а у кого-то нет. Я, к примеру, не чувствую ничего зловещего. Вероятно, по похожему принципу у кого-то насекомые или змеи вызывают отвращение, а кто-то к ним равнодушен или даже их обожает. Предполагаю, что это связано с какими-то детскими установками и давно забытыми переживаниями, которые ложатся в основу такого рода реакций.

Сергей Хвостов ❤️

2023-02-28 19:27:18 — #13680

Кстати, вот ещё очень полезная нейросеть - для улучшения звука. Я сам не пробовал, но смотрел видео, там очень хорошо отзывались.

https://podcast.adobe.com/enhance

Артём Синин

[Сергей], спасибо, давно тоже собирался попробовать, вот попробовал. Звук немножко странный получается и местами роботизированный какой-то, так что не для всех целей, наверное, подойдет. Но по принципу «дешево и сердито» уже вполне работает. Посмотрим, куда разовьется это направление.

Сергей Хвостов ❤️❤️❤️

2023-02-28 14:42:18 — #13675

Вау! Вот это я понимаю - 21 век!😃 Спасибо за информацию 🙏 Очень интересно и полезно!👍 Вообще, нейросети - это грандиозный и впечатляющий технологический прорыв!💪

Артём Синин

[Сергей], главное, чтобы он не оказался последним нашим прорывом) Потому что с того момента, как нейросети станут способны качественно себя апгрейдить (а дело к этому идет семимильными шагами), нам, в принципе, делать на планете останется особенно нечего.

Сергей Хвостов

[Артём], ага, есть даже книга с говорящим названием "Последнее изобретение человечества". Её я не читал, но читал книгу "Жизнь 3.0. Как быть человеком в эпоху ИИ". Очень интересная книга, где автор весьма подробно описывает опасности ИИ и сложности сделать его безопасным. Поэтому человечеству очень важно быть максимально осторожным с ИИ, ведь ошибка может быть фатальной.

Я надеюсь, что человечеству удастся обойти все сложности. Думаю, в итоге развитие приведёт к тому, что появится новый суперорганизм, включающий в себя всех людей, роботов и ИИ. И все будут гармонично сосуществовать внутри этого суперорганизма. Как нейроны в нашем мозге или клетки в теле)

Март 2026
Пн	Вт	Ср	Чт	Пт	Сб	Вс
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Добавить комментарий Отменить ответ