Хмельницький запис

медичний форум

Записатись вул. Камянецька, 76 (Філармонія) телефон 0966609569

0966609569
Вул. Пілотська, 1 (Територія Обллікарні) телефон 0682668078

0682668078

Ви не увійшли.

#1 2024-06-06 03:20:08

russrad
Учасник
Зареєстрований: 2021-11-21
Повідомлень: 34

Усім привіт.

Усім привіт. Цікава стаття вийшла, про те, як штучний інтелект складає іспити на рентгенолога. 

Виходить, що якщо для складання іспиту необхідно відповісти на 70 і більше відсотків запитань правильно, іспит можна складати з його допомогою, і це страшнувато. 

ChatGPT може пройти іспит у стилі радіологічної комісії, але його стохастичність і впевненість, коли він помиляється, можуть обмежити його корисність.

Мета

Оцінити надійність, відтворюваність і безвідмовність GPT-3.5 і GPT-4 (ChatGPT; OpenAI) за допомогою повторних запитів у рамках іспит перед радіологічною комісією.

Результати

Жодна з версій не показала різниці в точності за трьох спроб: за першої, другої та третьої спроб точність GPT-3.5 становила 69,3% (104 зі 150), 63,3% (95 зі 150) і 60,7% (91 зі 150) відповідно (P = .06); і точність GPT-4 становила 80,6% (121 зі 150), 78,0% (117 зі 150) і 76,7% (115 зі 150) відповідно (P = 0,42). Хоча як у GPT-4, так і в GPT-3.5 було досягнуто лише помірної згоди (κ = 0,78 і 0,64 відповідно), варіанти відповідей у GPT-4 були більш узгодженими в трьох спробах, ніж у GPT-3.5 (згода становила 76,7% [115 зі 150] проти 61,3% [92 зі 150], відповідно; P = .006). Після запиту відповіді обидва змінили відповіді на більшість запитань, хоча GPT-4 робив це частіше, ніж GPT-3,5 (97,3% [146 зі 150] проти 71,3% [107 зі 150], відповідно; P <0,001). Обидва оцінили "високий ступінь достовірності" (≥8 за шкалою від 1 до 10 балів) для більшості первинних відповідей (GPT-3,5, 100% [150 зі 150]; і GPT-4, 94,0% [141 зі 150]), а також для неправильних відповідей (наприклад, надмірна самовпевненість; GPT-3,5, 100% [59 із 59]; і GPT-4, 77% [27 із 35], відповідно; P = 0,89).

Висновок

Стандартні GPT-3.5 і GPT-4 були достовірно точними після трьох спроб, але обидва мали низьку відтворюваність і надійність і часто були надмірно самовпевненими. Протокол GPT-4 був більш послідовним у всіх спробах, ніж протокол GPT-3.5, але більшою мірою залежав від змагального запиту.

© RSNA, 2024
https://mrt-ct.com.ua/analizy/postanovka-kapelnyts

Неактивний

,
[Bot] ClaudeBot

Підвал форуму

Під керуванням FluxBB

[ Згенеровано за 0.026 сек, 7 запитів виконано - Використано пам'яті: 505.23 Кбайт (Пік: 514.92 Кбайт) ]