Найкращі інструменти для транскрибування аудіо зі штучним інтелектом

16 Min Read

Медіа та дослідницька компанія Charter запустила “Work Tech”- інформаційний бюлетень, що пропонує огляди технологічних продуктів. “Work Tech” надаватиме незалежні, засновані на дослідженнях, оцінки технологій та інструментів управління, що створюються для робочого місця, від транскрипції на основі штучного інтелекту до платформ віртуальних зустрічей для віддаленої роботи.

Для розробки “Work Tech” Charter співпрацює з Гленом Флейшманом – “ветераном” технічної журналістики з тридцятирічним досвідом оглядів продуктів. “Work Tech” буде виходити щотижня.

Дослідницько-аналітична група InfoLight.UA публікує переклад огляду інструментів для транскрибування аудіо зі штучним інтелектом від Charter.


Серед найбільш корисних повсякденних застосувань штучного інтелекту – транскрибування аудіо на основі нейронних мереж, що постійно вдосконалюються.

Транскрибування зі штучним інтелектом набуло додаткової користі під час пандемії, оскільки відеоконференції можна було легко записувати та ділитися розшифровками з колегами, які не змогли приєднатися до них. Оскільки гібридна робота стала довгостроковим трендом, автоматизоване транскрибування зростало разом з нею: інструменти стали значно кращими, ніж три роки тому, вартість – нижчою, а корисність – доведеною. Оскільки компанії намагаються зменшити кількість людей на зустрічах і кількість зустрічей загалом, транскрипції зі штучним інтелектом усувають FOMOOM – страх пропустити зустріч.

Ми протестували кілька комерційно доступних інструментів транскрипції на основі ШІ й виявили, що Fireflies, Rev Max і Sonix забезпечують дуже точну транскрипцію. Sonix і Rev Max трохи краще справлялися з написанням імен людей, тоді як Fireflies, безумовно, є найдешевшим рішенням для багатьох десятків годин поєднання зустрічей і завантажених транскрипцій щомісяця.

Ступінь точності, яку забезпечують ці три програми, перевищує рівень, необхідний для рутинних бізнес-цілей. Вони дешеві та досить прості у використанні, тому є цілком прийнятним варіантом для створення доступних для пошуку транскриптів повсякденних аудіозаписів, таких як наради вашої команди та мозкові штурми. Вони також знімають когнітивне навантаження та витрати, пов’язані з утриманням окремого спеціаліста з нотатками чи підбиттям підсумків після заходу.

Для тих, кому потрібні дослівні стенограми для ділових, юридичних, журналістських та інших цілей, наша добірка пропонує три програми, якість яких достатньо висока, щоб з невеликими зусиллями перейти від майже точного до точного запису. Наші добірки також включають інструменти для інтерактивного очищення транскриптів, що полегшує перевірку аудіозапису на наявність будь-якого слова чи фрази під час перегляду або покращення результатів. Якщо вам потрібні точні дослівні результати, виділення часу на очищення може виявитися набагато дешевшим, ніж замовлення транскриптів за допомогою людей. (Сервіси, зокрема Rev, дозволяють отримати доступ до транскрипції людиною за окрему плату).

Живі субтитри, доступні в основних інструментах для відеоконференцій, а також транскрипція після події, підвищують доступність на підприємстві для глухих, людей з порушеннями слуху або з різними способами сприйняття інформації, такими як СДУГ. Лише одна з наших програм, Rev Max, надала такі субтитри, і лише в Zoom, як альтернативу вбудованим субтитрам Zoom.

Our pics

Sonix

Будучи найкращим у своєму класі з Fireflies за чистотою транскрипції, Sonix фокусується на створенні точних записів зустрічей з точністю до голосу доповідача. Однак бути найкращим коштує дорожче, оскільки Sonix стягує плату за кожну використану хвилину за одним із двох тарифів залежно від тарифного плану.

КУПИТИ SONIX

ПЛЮСИ

  • Надзвичайно висока точність.
  • Правильне написання багатьох власних назв без словника.
  • Майже ідеальне розпізнавання окремих мовців.

МІНУСИ

  • Фіксована погодинна вартість робить його досить дорогим для інтенсивного щомісячного використання.
  • Пропонує значну інтеграцію відеоконференцій, але бракує документації.
  • Аудіоплеєр не працював у Safari, тільки в Chrome.

Rev.com

Завдяки чудовій транскрипції та розпізнаванню мовців, автоматизований сервіс Rev.com лише на один-два ступені поступається своїм конкурентам. Однак для тих, хто проводить нескінченні години в Zoom, необмежена кількість транскрипцій для зустрічей у Zoom може стати суттєвою ціновою перевагою над Sonix. (Якщо вам потрібна якість Rev.com менш ніж на дві години на місяць, використовуйте Temi: він ідентичний з усіх боків, окрім фіксованої ціни в $0,25 за хвилину).

КУПИТИ REV.COM

ПЛЮСИ

  • Дуже висока точність.
  • Відмінне розпізнавання голосу.
  • Інтеграція з Zoom для прямих трансляцій або обробки після зустрічі.

МІНУСИ

  • Дещо дорожче за хвилину у понад 20 годин на місяць для використання без Zoom.
  • Деякі аудіо функції не працювали в Safari, працювали в Chrome.

Fireflies

Краще збереження за Sonix транскрипції, чудова ідентифікація спікерів і навіть майже ідеальна розшифровка зустрічі зі штучним інтелектом ставлять Fireflies майже на вершину списку за якістю. Послуга також включає необмежену кількість транскрипцій зустрічей і 8 000 хвилин завантажених транскрипцій у своєму тарифі за $18 на місяць.

КУПИТИ FIREFLIES

ПЛЮСИ

  • Надзвичайно висока точність.
  • Чудова диференціація динаміків.
  • Значно дешевше, ніж всі інші сервіси, при значному щомісячному використанні суміші завантажених і транскрипцій зустрічей.

МІНУСИ

  • Розпізнавання власних імен у Fireflies було дещо гіршим, ніж у конкурентів, але це не було шахрайством.
  • Вимагає інтеграції з календарем Google або Outlook навіть для створення облікового запису, і, здається, немає способу обійти цю вимогу.

Як ми досліджували

З кількох компаній, які повністю зосереджені на транскрипції на основі штучного інтелекту або пропонують транскрипцію поряд із ручним транскрибуванням чи іншими послугами, ми вирішили уважно вивчити шість: Fireflies, MeetGeek, Otter.ai, Rev Max, Sonix і Trint. (Обґрунтування нашого вибору див. у розділі “Як ми обирали, що розглядати” нижче.) Ми також розглянули Temi, який належить Rev Max і є ідентичним до нього, за винятком ціни.

Було розглянуто вартість та обмеження кожного сервісу, а також спектр послуг, які вони пропонують, та інтеграцію з такими сервісами для відеоконференцій, як Meet, Teams, WebX та Zoom.

Для нашого тестового аудіо ми використали тест Тьюринга усного мовлення: подкаст із восьми учасників, які швидко говорять, з коментарями, що накладаються один на одного, записаний на трьох континентах. Хоча всі говорили англійською, акценти включали американський (з трьох частин округу), новозеландський та канадський (Альберта), а також не-носії мови з Німеччини та Швеції. Двоє спікерів, з Вісконсину та Альберти, мали голоси, які важко розрізнити на слух.

Три обрані нами сервіси змогли не лише розрізнити всіх дикторів, включно з двома найбільш схожими за звучанням голосами, а й правильно транскрибувати мову незалежно від акценту. Це включало правильне написання деяких неанглійських слів.

На що слід звернути увагу: Оскільки технології штучного інтелекту серед великих компаній постійно конкурують, очікуйте на подальші інновації та можливості. Ми хотіли б бачити кращі резюме (див. нижче). Також слідкуйте за Whisper від OpenAI: компанія випустила високоякісний рушій транскрипції під вільним, відкритим кодом.

Наші рекомендації

Розпізнавання голосу на основі штучного інтелекту має на меті забезпечити достатньо близьке відтворення мови, щоб її можна було використовувати в реальному часі або пізніше переглядати для читання, пошуку та узагальнення. Жодна система машинного навчання не обіцяє 100% точності. Більшість сервісів, які надають оцінку, як правило, стверджують, що вона знаходиться в діапазоні 90%-95%, що, як показало наше тестування, є точним показником. Сервіси, які нам найбільше сподобалися, знаходяться у верхній частині цього діапазону.

Кожна з наших добірок пропонує, як мінімум, наступне:

  • Ідентифікація спікерів: Транскрипти відстежують кількох спікерів і чітко позначають їх, що дозволяє пізніше змінювати їх. Наші три найкращі програми чудово впоралися з цим завданням.
  • Інтеграція зустрічей: Якщо запис зустрічі автоматично перетворюється на транскрипцію без додаткових зусиль – це плюс. Наші три найкращі програми надають таку можливість, хоча Fireflies і Sonix найкраще інтегруються з Zoom, а Rev Max працює лише безпосередньо з Zoom.
  • Редагування та анотування стенограми: Усі рекомендовані сервіси пропонують інтерфейс редагування для покращення транскрипту. Rev Max та Sonix надають кращі можливості для анотацій, ніж Fireflies.
  • Експорт в різні формати: Отримати транскрипт із системи, як правило, легко в усіх системах, які ми досліджували. Наші три найкращі програми підтримують Word, PDF та один або кілька стандартних форматів субтитрів на основі часового коду.

Багато з них також пропонують анотації на основі штучного інтелекту або аналіз ключових слів, що дає змогу з першого погляду ознайомитися з транскриптом і шукати в ньому ключову інформацію. Однак ці функції все ще перебувають у зародковому стані і занадто різняться за якістю та корисністю в різних транскриптах і сервісах, щоб їх можна було вважати критерієм. (Нам сподобався додаток Fireflies, але навіть він містив деякі смішні висновки). Це може швидко змінитися.

Ми також виокремили специфічні особливості, які можуть бути важливими для вашого рішення, серед наших трьох варіантів, або інші сервіси (зазначені нижче), які мають незначні або значні недоліки, але відповідають іншим потребам:

Інтеграція масштабування: Всі вони дозволяють завантажувати аудіо та інтегруються з Zoom. Fireflies і Sonix мають автоматичну обробку після зустрічі для інших популярних систем відеоконференцій, а Rev Max пропонує субтитри для Zoom як альтернативу вбудованому сервісу субтитрів Zoom.

Мови: Деякі сервіси пропонують лише англійську мову з американським або британським акцентом, тоді як інші пропонують ширший діапазон, аж до розпізнавання 30 і більше мов. Усі три сервіси розпізнають вражаючу кількість акцентів як рідної, так і чужої мови. Однак, якщо вам потрібна неанглійська транскрипція, Sonix або Fireflies будуть правильними відправними точками.

Редагування: Sonix та Rev Max дещо виділяються серед Fireflies завдяки кращим інструментам для редагування транскриптів та анотацій. Всі три програми надають широкий спектр опцій експорту, включаючи принаймні одну популярну опцію для субтитрів до відео.

Ціна: Нижче в статті ми наведемо порівняння для 20 годин і 60 годин використання на місяць шести сервісів, які ми досліджували, але з нашої трійки найкращих ми оцінюємо так:

  • Fireflies є найдешевшим у всіх сценаріях похвилинної оплати як для невеликих, так і для великих обсягів щомісячного транскрибування. Він пропонує необмежену кількість транскрипцій зустрічей і 8 000 хвилин (133,3 години) завантаженого аудіо в найдешевшому тарифі.
  • Sonix коштує від семи до 10 разів дорожче за хвилину, ніж Fireflies, оскільки компанія стягує фіксовану погодинну ставку за все використання: $10 за годину для оплати по мірі використання і $5 за годину при підписці за $22 на місяць ($100 на рік).
  • Rev Max має найвищу похвилинну вартість для завантажених файлів після 20 годин – $0,25 за хвилину. Але це значно зменшується завдяки включенню необмеженої транскрипції зустрічей у Zoom як частини однорівневої послуги вартістю $29,95 на місяць.

Вам потрібно буде перевірити свої потреби та зареєструватися на безкоштовну пробну версію кожного сервісу, щоб визначити, який з них підходить вам найкраще.

Серед усіх наших найкращих сервісів і майже всіх інших, які ми протестували, вартість може бути надзвичайно низькою, як у співвідношенні цінності до корисності, так і порівняно з транскрибуванням людьми. Ручне розшифрування коштує від $0,75 до $2,50 за хвилину, залежно від необхідного рівня точності, часу виконання та кількості галузевого жаргону у вихідному матеріалі. Сервіси, що пропонують розшифровку людьми під час зустрічі, коштують від 150 до 180 доларів за годину (від 2,50 до 3 доларів за годину), з мінімальною оплатою.

Автоматична транскрипція є миттєвою для подій у прямому ефірі, хоча якість може бути нижчою порівняно з обробкою на вимогу або після зустрічі. Офлайн-транскрипція може зайняти від кількох секунд до понад хвилини на кожну хвилину вихідного аудіо: годинна зустріч може бути готова від 10 до 60 хвилин пізніше, залежно від обіцянок і можливостей сервісу. Ми протестували лише ті сервіси, які дозволяють пряме завантаження на додаток до опцій інтеграції з нарадами.

Мобільні додатки

Якщо вам потрібен додаток, який можна використовувати для мобільного запису та перегляду транскриптів, безпосередньо пов’язаних із транскрипцією, Fireflies та Sonix не мають опцій для смартфонів. Rev пропонує таку можливість, як під своєю назвою, так і в рамках окремої фіксованої послуги Temi, але ці додатки для iPhone та Android надають лише функції запису та запиту на обслуговування. Вони не пропонують інтегрованої підтримки перегляду та редагування транскриптів.

Якщо мобільний додаток, який відображає стенограми, є критично важливим для ваших потреб, зверніть увагу на Trint. Компанія пропонує повнофункціональні додатки для запису для iOS та Android, якість транскрипції в яких майже така ж, як у Sonix та Fireflies. Додаток синхронізує транскрипції з центральним веб-додатком, що дозволяє переглядати їх на ходу. У нашому тесті Trint отримав низьку оцінку за ідентифікацію диктора.

Однак ціна Trint викликає подив. Початковий тарифний план коштує $60 на місяць ($576 на рік) за сім файлів на місяць. Перейдіть на тарифний план Advanced за $75 на місяць ($720 на рік), і транскрипція стане необмеженою.

Як ми обирали, що переглянути

Склавши вичерпний список автоматизованих сервісів транскрипції, ми вирішили придивитися до Fireflies, MeetGeek, Otter.ai, Rev Max, Sonix і Trint, оскільки вони мали правильне поєднання інтеграції з сервісами відеоконференцій.

MeetGeek орієнтований на проведення нарад, тому наразі не може змінювати призначення спікерів після транскрипції, хоча якість транскрипції у нього висока. Otter.ai був піонером у галузі транскрипції на основі штучного інтелекту, проте його поточна якість транскрипції та розпізнавання спікерів були найгіршими з тих, що ми тестували.

Speak AI та Speechtext.ai не пропонують інтеграції з програмним забезпеченням для проведення нарад і не увійшли до нашого дослідження. Chorus і Gong включають форми транскрипції зі штучним інтелектом як частину наборів інструментів для управління взаємодією з клієнтами і не можуть оцінюватися окремо.

Кілька сервісів мали дуже вузьку спрямованість і не підходили під нашу бізнес-рубрику: Alice (журналістські розслідування), Beey (професійні субтитри до відео) та scribe.com (медична документація та телемедицина). TranscribeMe зазначає, що він не є ідеальним для низькоякісного аудіо, що часто трапляється під час відеоконференцій та інших спеціальних записів. Verbit.ai не пропонує стандартних щомісячних тарифних планів; він надає лише індивідуальні розцінки на використання.

Share This Article
Leave a comment

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Exit mobile version
X