Τα γλωσσικά μοντέλα τεχνητής νοημοσύνης "κόπηκαν" στη δοκιμασία της σωστής έγκαιρης διάγνωσης, σύμφωνα με νέα μελέτη, η οποία δείχνει αν μη τι άλλο ότι αυτά δεν είναι ακόμα ασφαλή για κλινική χρήση χωρίς επίβλεψη και διασταύρωση.
Τα chatbots τεχνητής νοημοσύνης έχουν βελτιώσει τη διαγνωστική τους ακρίβεια όταν τους παρέχονται ολοκληρωμένες κλινικές πληροφορίες, αλλά εξακολουθούν να αποτυγχάνουν να παράγουν μια κατάλληλη διαφορική διάγνωση και μάλιστα συντριπτικά, σε ποσοστό άνω του 80% των περιπτώσεων, σύμφωνα με ερευνητές του Mass General Brigham, ενός μη κερδοσκοπικού νοσοκομείου και ερευνητικού δικτύου με έδρα τη Βοστώνη και ενός από τα μεγαλύτερα συστήματα υγείας στις Ηνωμένες Πολιτείες.
Τα αποτελέσματα της μελέτης, που δημοσιεύθηκαν στο ιατρικό περιοδικό ανοικτής πρόσβασης JAMA Network Open, διαπίστωσαν ότι τα μεγάλα γλωσσικά μοντέλα (LLMs) δεν διαθέτουν τη λογική που απαιτείται για κλινική χρήση.
«Παρά τις συνεχείς βελτιώσεις, τα έτοιμα προς χρήση μεγάλα γλωσσικά μοντέλα δεν είναι τελικά έτοιμα για μη εποπτευόμενη εφαρμογή κλινικού επιπέδου», δήλωσε ο Marc Succi, συν-συγγραφέας της μελέτης.
Πρόσθεσε ότι η τεχνητή νοημοσύνη δεν μπορεί ακόμη να αναπαράγει τη διαφορική διάγνωση, η οποία είναι κεντρική για την κλινική συλλογιστική και την οποία θεωρεί «την τέχνη της ιατρικής».
Η διαφορική διάγνωση είναι το πρώτο βήμα για τους επαγγελματίες υγείας προκειμένου να προσδιορίσουν μια πάθηση, διαχωρίζοντάς την από άλλες με παρόμοια συμπτώματα.
Πώς δοκιμάστηκαν τα μοντέλα
Η ερευνητική ομάδα ανέλυσε τη λειτουργία 21 LLM, συμπεριλαμβανομένων των πιο πρόσφατων διαθέσιμων εκδόσεων των Claude, DeepSeek, Gemini, GPT και Grok.
Αξιολόγησαν τα LLM σε 29 τυποποιημένες κλινικές περιγραφές χρησιμοποιώντας ένα νέο εργαλείο που ονομάζεται PrIME-LLM.
Το εργαλείο αξιολογεί την ικανότητα ενός μοντέλου σε διαφορετικά στάδια της κλινικής συλλογιστικής: τη διεξαγωγή μιας αρχικής διάγνωσης, τη ζήτηση κατάλληλων εξετάσεων, την κατάληξη σε τελική διάγνωση και τον σχεδιασμό της θεραπείας.
Για να προσομοιώσουν την εξέλιξη των κλινικών περιπτώσεων, οι ερευνητές τροφοδότησαν σταδιακά τα μοντέλα με πληροφορίες, ξεκινώντας από βασικά στοιχεία όπως η ηλικία, το φύλο και τα συμπτώματα του ασθενούς, πριν προσθέσουν τα ευρήματα της φυσικής εξέτασης και τα εργαστηριακά αποτελέσματα.
Η διαφορική διάγνωση είναι κρίσιμη σε ένα πραγματικό κλινικό περιβάλλον για να προχωρήσει κανείς στο επόμενο βήμα. Ωστόσο, στη μελέτη, στα μοντέλα δόθηκαν πρόσθετες πληροφορίες, ώστε να μπορούν να προχωρήσουν στο επόμενο στάδιο ακόμη και αν απέτυχαν στο βήμα της διαφορικής διάγνωσης.
Οι ερευνητές διαπίστωσαν ότι τα γλωσσικά μοντέλα πέτυχαν υψηλή ακρίβεια στις τελικές διαγνώσεις, αλλά είχαν χαμηλή απόδοση στη δημιουργία διαφορικών διαγνώσεων και στη διαχείριση της αβεβαιότητας.
Στην τελική διάγνωση, τα ποσοστά επιτυχίας κυμαίνονταν από περίπου 60% έως πάνω από 90%, ανάλογα με το μοντέλο.
Τα περισσότερα από τα LLM έδειξαν βελτιωμένη ακρίβεια όταν τους δόθηκαν εργαστηριακά αποτελέσματα και απεικονίσεις εκτός από κείμενο.
Τα αποτελέσματα εντόπισαν μια ομάδα κορυφαίας απόδοσης που περιελάμβανε τα Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash και Gemini 3.0 Pro.
Η καθοριστική συμβολή των επαγγελματιών υγείας στη διάγνωση
Ωστόσο, οι συγγραφείς σημείωσαν ότι, παρά τις βελτιώσεις που βασίζονται στις εκδόσεις και τα πλεονεκτήματα των μοντέλων με βελτιστοποιημένη συλλογιστική, τα έτοιμα προς χρήση LLM δεν έχουν ακόμη επιτύχει το επίπεδο νοημοσύνης που απαιτείται για ασφαλή εφαρμογή και παραμένουν περιορισμένα στην επίδειξη προηγμένης κλινικής συλλογιστικής.
«Τα αποτελέσματά μας επιβεβαιώνουν ότι τα μεγάλα γλωσσικά μοντέλα στον τομέα της υγειονομικής περίθαλψης εξακολουθούν να απαιτούν την παρουσία ανθρώπου και πολύ στενή εποπτεία», σημείωσε ο Succi.
Πηγή: Euronews





