دانشمندان با استفاده از رایانههای قدرتمند، این نتایج را بهدقت بررسی کردهاند اما مشخص است که با کمک هوشمصنوعی میتوانیم اطلاعات بیشتری کسب کنیم. طی یک دهه آینده، شبکههای عصبی با فناوری یادگیری عمیق (دیپلرنینگ) احتمالا الگوی جستوجوی دادهها، چگونگی انجام تحقیقات و استفاده از آن را برای سلامتی انسان تغییر میدهند. پژوهشگران هوشمصنوعی به سه چیز اعتماد دارند: داده، داده و داده بیشتر. گزارش اینشماره ما چنین انقلاب نوپایی را نوید میدهد.
***
شکار داروهای جدید
در شرایط رکود کشف دارو، هوشمصنوعی چقدر میتواند کمک کند؟
در حال حاضر بزرگترین شرطبندیها در حوزه کشف داروست. در سالهای ۲۰۰۳ تا ۲۰۱۳ متوسط هزینه وارد کردن داروی جدید در بازار تقریبا دو برابر شده و به ۲٫۶ میلیارد دلار رسیده است و ازآنجاکه از هر ۱۰ داروی جدید، ۹ مورد در دو مرحله پایانی آزمایشهای بالینی شکست میخورد، بیشتر پول به هدر میرود. هر شرکت بزرگ داروسازی حداقل با یک استارتاپ مبتنی بر هوش مصنوعی همکاری میکند تا ببیند چگونه میتواند بازده سرمایهگذاری را افزایش دهد. الگوریتمهای ماشینی میتوانند میلیونها ترکیب را غربال کنند تا به گزینههای دارویی خاص برسند.
صنعت داروسازی جهانی، حداقل در دو دهه، هزار میلیارد دلار صرف اشتباهات پیشرفت و تولید دارو کرده است. شرکتهای داروسازی هر روز بیشتر هزینه میکنند ولی دستاوردهای داروهای موفقشان کمتر است. 10سال پیش به ازای هر دلار سرمایهگذاری در تحقیق و توسعه (R&D)، ۱۰سنت بازمیگشت ولی این رقم امروز کمتر از دو سنت است. بخشی از آن به این دلیل است که داروهایی که کشف آنها راحتتر است و برای اختلالهاي معمول، مؤثر و امن هستند همگی کشف شدهاند؛ آنچه باقی مانده، دست یافتن به داروهایی است که مشکلاتی با راهحلهای پیچیده را هدف گرفتهاند. این داروها معمولا بخشهای کمی از جمعیت را تحتتاثیر قرار میدهند، بنابراین درآمد بسیار کمتری به همراه میآورند.
استقبال از هوشمصنوعی
یافتن داروهای جدید و موفقیتامیز سختتر شده؛ بنابراین تعجبی ندارد که این صنعت به ابزارهای هوشمصنوعی برای تولید دارو علاقه دارد. بیشتر اپلیکیشنهای کشف داروی مبتنی بر هوشمصنوعی، از روشی به نام یادگیری ماشینی شامل زیرمجموعهای از رویکردهای یادگیری عمیق (دیپلرنینگ) بهره میگیرند. بيشتر برنامههای یادگیری ماشینی میتوانند با مجموعه دادههای کوچکی که سازمانیافته و برچسبخورده باشند، کار کنند؛ درحالیکه برنامههای یادگیری عمیق میتوانند با دادههای خام فراوان و بدون ساختار کار کنند.
بسیاری از دانشمندان این حوزه تصور میکنند هوشمصنوعی درنهایت از چندین روش، پیشرفت دارو را بهبود میبخشد: با شناسایی کاندیداهای امیدوارکنندهتر دارو، با افزایش میزان موفقیت یا درصد کاندیداهایی که این کار را از طریق آزمایشهای بالینی انجام میدهند و به تصویب نظارتی میرسند و با سرعت بخشیدن به روند کلی. ویپین گوپال (Vipin Gopal)، مدیر ارشد دادهها، تجزیهوتحلیل در شرکت چندملیتی داروسازی Eli Lilly میگوید: «هوشمصنوعی جایی میتواند تفاوت بزرگی ایجاد کند که داروها زود شکست میخورند، یعنی قبل از اینکه ما روی آنها سرمایهگذاری کنیم.»
استارتاپهای کشف داروی مبتنی بر هوشمصنوعی در سال ۲۰۱۸ بیش از یک میلیارد دلار بودجه جمعآوری کردند و این رقم به بیش از ۱٫۵ میلیارد دلار در سال ۲۰۱۹ رسید. فقط چند داروی کشفشده مبتنی بر هوشمصنوعی به مرحله آزمایش انسانی رسیدهاند و هیچکدام از آزمایشهای انسانی مرحله سوم را -آزمایش استاندارد برای داروهای آزمایشی- آغاز نکردهاند. خیلی دور از ذهن نیست که نتایج اولیه به داروهای بیشتر و بهتر تبدیل شود.
سرعت بخشیدن به جستوجوی داروها
ابزارهای هوشمصنوعی، جنبههای مختلف کشف دارو را از چند روش انجام میدهند. بهعنوانمثال، بعضی از شرکتهای هوشمصنوعی روی طراحی داروهایی تمرکز دارند که میتواند با اطمینان و کارآمدی روی یک هدف شناختهشده کار کند (معمولا یک پروتئین خاص و مطالعهشده که به یک بیماری مربوط است.)
فرآیند کشف دارو معمولا با شناسایی پروتئین هدف درگیر در یک بیماری آغاز میشود. هدف، یافتن ترکیبی است که میتواند به پروتئین بپیوندد تا روند بیماری را قطع کند. با توجه به هدف، نرمافزار هوشمصنوعی Exscientia میتواند پیشبینی کند که کدام ترکیبات به پروتئین وصل میشوند و همچنین کدام آزمایشهای بعدی میتواند فهرست را بهاندازه کافی برای ترقی آزمایشهای پیشرفته محدود کند.
به گفته سوراب ساها (Saurabh Saha)، فیزیکدان، دانشمند و کارآفرین بیوتکنولوژی، نرخ ورود داروهای بهدستامده به کمک هوشمصنوعی به بازار احتمالا برای مدتی پایین میماند. بااینحال، اگر فرآیندها برای آزمایش و تايید، ساده شده باشند تا توانایی سیستمهای یادگیری عمیق و ماشینی برای پیشبینی دقیقتر اینکه کدام داروها بسیار بیخطر و موثرند و برای کدام بیمارها مناسب هستند، بیشتر شود؛ این نرخ میتواند به طرز چشمگیری افزایش یابد. او میگوید: «اینکه هوشمصنوعی جایگزین دانشمندان و تحقیقات مرسوم شود، اشتباه است. درحالیکه هوشمصنوعی، تلاشهای انسانی را پشتیبانی و تقویت میکند، باز هم همهچیز به انسانها بستگی دارد که دیدگاههای زیستشناختی جدید تولید کرده، جهتها و اولویتهای تحقیق را تعیین، راهنمایی و اعتبارسنجی کرده و دادههای موردنظر را تولید کنند.»
نیاز به تغذیه نرمافزار هوشمصنوعی با حجم زیادی از دادهها شروع به تغییر علم میکند، زیرا محققان آزمایشهای بیشتری را بهطور خاص با تولید دادههای مربوط به هوشمصنوعی در ذهن انجام میدهند. سارا کنکار-میترا (Sara Kenkare-Mitra)، معاون ارشد توسعه علوم در Genentech (شرکت تابعه روشه) میگوید: «همیشه اطلاعات کافی از کلینیک برای استفاده در یادگیری ماشینی وجود ندارد اما میتوانیم این دادهها را بهطور آزمایشگاهی تولید کرده و آنها را به سیستم تزریق کنیم.»
این نوع رویکرد میتواند به چرخه پرتحرکی در کشف دارو منجر شود که در آن، هوشمصنوعی به روشن شدن مناطقی کمک میکند که محققان باید دنبال اهداف و داروها باشند. علاوه بر این، نتایج تحقیقات، مجموعه دادههای بزرگتر و مناسبتری را فراهم میکند که به نرمافزار اجازه میدهد تا حتی به راههای تحقیقاتی پرثمرتر نیز برسند. سارا کنکار میگوید: «این خود هوشمصنوعی نیست که به آن اعتقاد داشته باشیم، بلکه همکاری انسانی و هوشمصنوعی است.»
{اینفوگرافیک ۱}
پروتئین موردعلاقه بهعنوان هدف احتمالی دارو
۱. اطلاعات مربوط به پروتئین هدف در یک بانک اطلاعاتی از فعلوانفعالات تغذیه میشود.
۲. ترکیبات ناسازگار و بالقوه سمی از بین میروند.
ترکیب دارویی ممکن است
۳. این نرمافزار، ترکیبات امیدوارکننده را پرچمگذاری کرده و تستهای جدید را مشخص میکند.
۴. هدف جدید و نتایج آزمایش ترکیبی دوباره به آن اضافه میشوند.
۵. این روند تا زمانی که یک فهرست کوتاه از ترکیبات پرچمدار نشود، تکرار میشود.
***
پیشرفت روباتهای رادیولوژی
وقتی هوشمصنوعی اشتباه میکند، چه کسی مقصر است؟
هوشمصنوعی برای تفسیر اسکنهای پزشکی نیز استفاده میشود. بعضی از سیستمها میتوانند علائم اولیه سرطان را که ممکن است رادیولوژیستی شناسایی نکند، تشخیص دهند یا چیزهایی را ببینند که فراتر از ظرفیت انسان است، مانند تشخیص خطر قلبیعروقی از اسکن شبکیه. سازمان غذا و داروی آمریکا (FDA)، الگوریتمهای تصویربرداری را با کلیپ سریع آزمایش میکند. دیگر نرمافزارهای هوشمصنوعی هنوز جای کار بسیاری دارند. آیا سوابق الکترونیک پزشکی (EHR) ناکارآمد امروز که با سیستمهای هوشمند ارائه میشوند، از تجویزهای اشتباه جلوگیری میکنند و امکان هشدارهای زودهنگام بیماری را فراهم میکنند؟ بعضی از بزرگترین غولهای فناوری دنیا روی آن کار میکنند.
آغاز ماجرا با یک اشتباه پزشکی
وقتی رجینا بارزیلی در اوایل چهلسالگیاش، ماموگرامی روتین خود را انجام داد؛ تصاویر، مجموعهای از شکافهای سفیدرنگ را در بافت پستان نشان میداد. آیا این علائم طبیعی است یا سرطانی؟ حتی بهترین رادیولوژیستها هم معمولا نظرات متفاوتی دارند. پزشکان او تصمیم گرفتند که این لکهها فعلا نگرانکننده نیستند. او میگوید: «من قبلا سرطان داشتم و آنها آن را ندیدند.»
در دو سال پس از آن، رجینا ماموگرافی دوم، امآرآی پستان و بایوپسی (نمونهبرداری از بافت مشکوک) را انجام داد که همگی همچنان یافتههای مبهم و متناقضی را نشان میدادند. سرانجام او در سال ۲۰۱۴ به سرطان پستان مبتلا شد اما راه رسیدن به آن تشخیص بهشکلی باورنکردنی ناامیدکننده بود. او شگفتزده بود که چگونه میتوان سه آزمایش انجام داد و سه نتیجه متفاوت به دست آورد؟ رجینا مورد معالجه قرار گرفت و روند درمان بهخوبی طی شد اما او وحشت داشت که نداشتن قطعیت خواندن ماموگرافی بتواند معالجه را به تاخیر بیندازد. او میگوید: «فهمیدم رویکردهای فعلی از ما محافظت نمیکنند.» بنابراین او تصمیم گرفت شغلش را کاملا تغییر دهد!
رجینا پیش آن هرگز درباره سلامت مطالعه نکرده بود اما تصمیم گرفت یک دانشمند رايانه در امآیتی (دانشگاه صنعتی ماساچوست) شود. او در تحقیقاتش از تکنیکهای یادگیری ماشینی -نوعی هوشمصنوعی- برای پردازش زبان طبیعی استفاده کرد اما او دنبال خط جدیدی در تحقیقات بود و تصمیم گرفت با رادیولوژیستها همکاری کند تا الگوریتمهای یادگیری ماشینی را توسعه دهد و از آنالیزهای بصری برتر رايانهها برای کشف الگوهای دقیق در ماموگرافیهایی استفاده کند که چشم انسان ممکن است نبیند.
این تیم در چهار سال، ماموگرافی حدود ۳۲ هزار زن را در سنین و نژادهای مختلف با یک برنامه رايانهاي تحلیل کرد تا بفهمد کدامیک از زنان طی پنج سال پس از اسکن به سرطان مبتلا شدهاند. آنها سپس تواناییهای تطبیق رايانهاي را در ۳۸۰۰ بیمار دیگر آزمایش کردند. الگوریتم حاصل از آنها در پیشبینی سرطان یا وجود نداشتن سرطان، بهطور قابلتوجهی دقیقتر از روشهایی بود که معمولا در کلینیکها استفاده میشود. وقتی تیم رجینا، این برنامه را روی ماموگرافی خود در سال ۲۰۱۲ امتحان کرد، الگوریتم بهدرستی پیشبینی کرد که در مقایسه با ۹۸ درصد از بیماران، او در معرض خطر بیشتری برای ابتلا به سرطان پستان در پنج سال آینده است.
تفسیر تصاویر پزشکی
الگوریتمهای هوشمصنوعی فقط جزئیات بسیار ریز را برای انسان قابلمشاهده نمیکنند، آنها همچنین میتوانند روشهای کاملا جدیدی برای تفسیر تصاویر پزشکی ایجاد کنند، گاهی انسان این روشها را نمیفهمد. محققان، شرکتهای استارتاپی و تولیدکنندگان اسکنر بیشماری که برنامههای هوشمصنوعی طراحی میکنند امیدوارند بتوانند دقت و سرعت تشخیصها را بهبود بخشند، در کشورهای درحالتوسعه و مناطق دورافتاده که فاقد رادیولوژیست هستند، امکان درمان بهتری را فراهم کنند، پیوندهای جدیدی بین زیستشناسی، بیماری کشف و حتی پیشبینی کنند که فرد، چهوقت جان خود را از دست میدهد.
اپلیکیشنهای هوشمصنوعی با سرعت بالایی وارد کلینیکها میشوند و پزشکان همانقدر که درباره ظرفیت این ابزارها در کم کردن حجم کاری خود هیجانزدهاند، ترس از دست دادن شغل خود را نیز به دلیل فراگیری ماشینها دارند. الگوریتمها همچنین سوالهاي جدیدی به وجود میآورند، ازجمله اینکه چگونه میتوان ماشینی را تنظیم کرد که پیوسته میآموزد و در صورت تشخیص اشتباه الگوریتم، چه کسی مقصر است؟
مشکلات حقوقی
نگرانیهای بسیاری درباره استفاده از هوشمصنوعی در پزشکی از نظر حقوقی مطرح شده است. در صورت اشتباه هوشمصنوعی، تشخیص اینکه هوشمصنوعی مقصر است یا پزشک، دشوار است. نیکلسون پرایس (Nicholson Price)، کارشناس حقوق پزشکی در دانشگاه میشیگان میگوید: «اتفاقهاي بدی در حوزه مراقبتهای پزشکی رخ میدهد و شما نمیدانید چرا اتفاق افتادند.» اگر سیستم هوشمصنوعی، پزشک را به سمت تشخیص نادرست سوق دهد، ممکن است پزشک نتواند دلیل آن را توضیح دهد و اطلاعات شرکت درباره روش آزمایش احتمالا بهعنوان یک راز تجاری محفوظ میماند.
اریک توپل (Eric Topol)، محقق پزشکی دیجیتال در انستیتوی تحقیقاتی اسکریپس (Scripps Research Institute) در کالیفرنیا میگوید: «ماشینها نیز مانند انسانها مریض میشوند و این اتفاق از طریق آلوده شدن به بدافزار میافتد. وقتی زندگی کسی در خطر باشد، شما نمیتوانید به الگوریتم اعتماد کنید.»
آیا ماشینها جای پزشکان را میگیرند؟
محدودیتهای هوشمصنوعی به رادیولوژیستهایی که نگران شغل خود هستند، اطمینان میدهد. ۱۰ سال پیش بعضی از محققان، رادیولوژیستها را قاتل بیماران میدانستند و این نگرانی، تاثیر واقعی نیز داشته است. طبق نظرسنجی در سال ۲۰۱۸ روی ۳۲۲ دانشجوی پزشکی کانادایی، ۶۸ درصد معتقدند که هوشمصنوعی باعث کاهش تقاضا برای رادیولوژیستها میشود. بااینوجود، بیشتر کارشناسان و تولیدکنندگان هوشمصنوعی شک دارند که این فناوری بهزودی جایگزین پزشکان شود. الاد والاچ (Elad Walach)، مدیرعامل استارتاپ Aidoc میگوید: «حتی اگر یک الگوریتم در تشخیص مشکلی خاص بهتر عمل کند، ترکیب آن با تجربه و دانش پزشکی منجر به نتیجه بهتر خواهد شد.»
با وجود ترس از اینکه ماشینها انسان را حذف میکنند، بیشتر کارشناسان معتقدند هوشمصنوعی و انسانی بهطور همافزایی کار خواهند کرد. نگرانی بزرگتر کمبود افرادی است که هم دانش زیست پزشکی و هم مهارت ساخت الگوریتم را دارند.
***
نفت خامی که نیاز به تصفیه دارد
تاثیر هوشمصنوعی در ثبت و دسترسی به سوابق پزشکی بیماران
مرد جوانی به نام راجر وقتی به بخش اورژانس میآید، از شکمدرد و حالت تهوع شکایت میکند. معاینه فیزیکی نشان میدهد که درد در قسمت تحتانی راست شکم او متمرکز است. پزشک نگران است که آپاندیسیت باشد اما با رسیدن نتایج تصویربرداری، حال راجر بهتر میشود و اسکن نشان میدهد که آپاندیس او طبیعی به نظر میرسد. پزشک قبل از ترخیص او به رايانه مراجعه میکند تا دو دارو یکی برای حالت تهوع و تیلنول (Tylenol) برای درد تجویز کند.
۵۵ پزشک در سراسر آمریکا بخشی از مطالعه بودند تا سوابق الکترونیک پزشکی (EHR) قابلاستفاده را بررسی کنند. برای تجویز داروها، پزشک باید آنها را در سیستم سوابق الکترونیک پزشکی ثبت کند. در یک بیمارستان، جستوجویی ساده برای تیلنول، فهرستی بیش از ۸۰ گزینه را ارائه میدهد. راجر بيستوششساله است اما فهرست نشان میدهد که تیلنول برای کودکان و نوزادان و همچنین گرفتگیهای قاعدگی استفاده میشود. پزشک سعی دارد تا فهرست را با تایپ دوز مطلوب -۵۰۰ میلیگرم- در پنجره جستوجو غربال کند اما نتایج جستوجو صفر است؛ بنابراین او به فهرست اصلی برمیگردد و درنهایت گزینه ۶۸ یعنی Tylenol Extra Strength 500 mg را که رایجترین دوز تیلنول است، انتخاب میکند. آنچه باید کاری ساده میبود، بیشتر از آنچه لازم بود وقت گرفت. این تنها یک نمونه از مشکلات آزاردهنده بیشماری است که پزشکان هر روز هنگام استفاده از سوابق الکترونیک پزشکی با آنها سر و کار دارند.
این نسخههای دیجیتالی از نمودارهای کاغذی که پزشکان از آنها برای ثبت ویزیت بیماران، نتایج آزمایشگاهی و دیگر اطلاعات پزشکی مهم استفاده میکنند، قرار بود فرآیند پزشکی را تغییر دهند. سند فناوری اطلاعات سلامت برای سلامت بالینی و اقتصادی (HITECH) که در سال ۲۰۰۹ تصویب شد، ۳۶ میلیارد دلار مشوق مالی برای ترغیب بیمارستانها و درمانگاهها به استفاده از سوابق الکترونیک پزشکی بهجای نمودارهای کاغذی در نظر گرفت، زیرا این تغییر زبالهها را کاهش میدهد، نوارهای قرمز را از بین میبرد و نیاز به تکرار آزمایشهای پزشکی گران را کم میکند.
وقتی HITECH به تصویب رسید، ۴۸ درصد از پزشکان از سوابق الکترونیک پزشکی استفاده میکردند. در سال ۲۰۱۷ این تعداد به ۸۵ درصد رسید اما قدرت دگرگونکننده سوابق الکترونیک پزشکی هنوز محقق نشده است. پزشکان درباره رابطهای دستوپاگیر و ورود اطلاعات وقتگیر شکایت دارند. نظرسنجیها نشان میدهد که آنها زمان بیشتری را برای تعامل با پرونده بیمار صرف میکنند تا بیمار واقعی.
به گفته پزشکان و دانشمندان داده، هوش مصنوعی در قالب یادگیری ماشینی - که به رايانهها اجازه میدهد تا الگوهای موجود در داده را تشخیص دهند و بهتنهایی نتیجهگیری کنند- ممکن است بتواند به چیره شدن بر موانع پیشآمده کمک کند و ظرفیت سوابق الکترونیک پزشکی را برای پیشبینی و بهبود مراقبت از بیمار شکوفا کند.
افتضاح دیجیتالی
در سال ۲۰۱۶، انجمن پزشکی آمریکا با همکاری MedStar Health که یک سازمان بهداشتی و درمانی غیرانتفاعی است، آزمایشی را انجام داد. این تیم بهعنوان پزشکان اورژانس در چهار بیمارستان استخدام شدند و دادههای بیماران ازجمله پرونده راجر، کسی که به نظر میآمد درد آپاندیس دارد، به آنها داده شد. از پزشکان خواسته شد تا وظایف متداولی مانند تجویز داروها و دستور آزمایشها را انجام دهند. محققان ارزیابی کردند که پزشکان چه مدت طول میکشد تا هر کار را انجام دهند، چند کلیک موردنیاز است و چقدر دقیق انجام میشود.
نتایج ناامیدکننده بود. زمان و تعداد کلیکهای موردنیاز از سایتی به سایت دیگر و حتی بین سایتهایی که از همان سیستم استفاده میکردند، بسیار متفاوت بود. پزشکان مجبور بودند بهطور دستی دوزهای ضعیف را محاسبه کنند که دو تا سه دقیقه طول میکشید و به ۲۰ تا ۴۲ کلیک نیاز داشت. این نقص طراحی بیخطر نبود، پزشکان غالبا در دوزها اشتباه میکردند، در یک سایت میزان خطا به ۵۰ درصد رسید.
اما رابطهای ناخوشایند فقط بخشی از مشکل سوابق الکترونیک پزشکی هستند. مانع دیگر این است که این اطلاعات هنوز بهراحتی بین ارائهدهندگان جابهجا نمیشوند. بر اساس گزارش سال ۲۰۱۸ آکادمی ملی پزشکان، این سیستم فاقد امکان ارائه یکپارچه و خودکار داده در زمان و مکان موردنظر در شبکه مورد اعتماد است. اگر بیمار پزشک خود را تغییر دهد، به بخش مراقبت فوری مراجعه کند یا در سراسر کشور حرکت کند، سوابق او ممکن است در دسترس باشد یا نباشد.
در مارس ۲۰۱۸، Harris Poll، یک شرکت تحقیقات بازار و مشاوره جهانی که مقر آن در شیکاگو است، نظرسنجی آنلاینی انجام داد تا نظر پزشکان را درباره سوابق الکترونیک پزشکی بررسی کند. نتایج حیرتانگیز بود. پزشکان گزارش دادند که بهطور متوسط تقریبا نیمساعت برای هر بیمار وقت میگذارند. بیش از ۶۰ درصد از این زمان صرف تعامل با سوابق پزشکی بیمار میشود. نیمی از پزشکان مراقبتهای اولیه معتقدند که استفاده از سوابق الکترونیک پزشکی از اثربخشی بالینی کاسته است.
با وجود اشکالات عمدهای که در سیستمهای سوابق الکترونیک پزشکی وجود دارد، بیشتر پزشکان قبول دارند که سوابق الکترونیکی پیشرفت چشمگیری در نمودارهای کاغذی ایجاد کردهاند. دیجیتالی شدن دادههای بیماران به این معنی است که آنها اکنون برای تجزیهوتحلیل با استفاده از قدرت هوش مصنوعی در دسترس هستند.
داده بهتر، مدل بهتر
ساخت و اجرای مدلها پیچیدهتر از آن است که در ابتدا ظاهر شود. بیشتر آنها فقط به دادههای ساختاری سوابق الکترونیک پزشکی متکی هستند. این دادهها ممکن است شامل خواندن فشارخون، نتایج آزمایشگاه، تشخیص یا حساسیت به دارو باشد. این سوابق پزشکی شامل طیف گستردهای از دادههای بدون ساختار مانند یادداشتهای پزشک درمورد معاینه، ایمیل و تصاویر اشعه ایکس است. فینال دوشی-ولز (Finale Doshi-Velez)، دانشمند رايانه در دانشگاه هاروارد میگوید: «اطلاعات آنجا وجود دارد اما استخراج آن برای کامپیوتر بسیار سخت است.» نادیدهگرفتن این متون به معنی از دست رفتن اطلاعات باارزش است، از جمله اینکه بیمار بهبود یافته یا خیر.»
تصور کنید آلرژی به توتفرنگی بهجای اینکه در قسمت مربوط به آلرژی ثبت شود، در یادداشتهای بالینی ذکر شود. در چنین مواردی، الگویی که به دنبال آلرژی فقط در بخش آلرژی سوابق پزشکی است از دادههای نادرست استفاده میکند و این یکی از بزرگترین چالشهایی است که با آن روبهرو هستیم.
درحقیقت بیشتر دادههای پیداشده در سوابق پزشکی برای وارد شدن به الگوریتم آماده نیستند. ابتدا باید درمان بهطور قابلتوجهی جلو برود. برای مثال، به شما میگویند میخواهند الگوریتمی را طراحی کنند که به بیماران بخش مراقبتهای ویژه کمک کند تا از کاهش قند خون که مشکلی شایع است، جلوگیری شود. ساده به نظر میرسد ولی قند خون به روشهای مختلفی اندازهگیری میشود؛ با گرفتن خون از انگشتان دست یا ورید. همچنین انسولین نیز به روشهای مختلفی تجویز میشود. وقتی محققان، تمام اطلاعات مربوط به انسولین و قند خون بیماران را در یک بیمارستان بررسی کردند، هزاران روش مختلف برای ورود آنها به سوابق پزشکی وجود داشت. قبل از اینکه یک الگوریتم طراحی شود، این دادهها باید بهصورت دستی طبقهبندی و دستهبندی شوند. دادههای سلامت مانند نفت خام است، اگر تصفیه نشوند، فایدهای ندارند.