Как се променят ежедневните големи данни в Америка?

Идеята за „големи данни“ стана повсеместна, но какво е това и как се променя начина, по който живеем? Седнахме с учен с данни, доктор на Харвард и номинираната за Национална книга награда Кати О'Нийл, за да разберем.

CT: Да започнем с основните положения - какво точно е "големи данни"?

CO: Големите данни са нов подход за прогнозиране на нещата. По-конкретно, "големи данни" е използването на случайно събрани данни - например как търсите през браузъра си или какво правите във Facebook - за да заключите неща за вас, например какво ще купите или какви са политическите ви връзки. Това е индиректен начин да разбера хората. Например, камера, която ни изследва, не пита „Какво правиш?“ - просто се вижда какво правим.

CT: И какво е алгоритъм?

CO: Алгоритмите са изчисления, които [интерпретират] данните, събрани за вас, за да създадете прогноза. Мислете за това като за математическо уравнение, което се опитва да отговори на въпрос, който е очертан като предсказание, като например: „Този човек е на път да купи нещо?“ или „Този човек ще гласува ли за някого?“

CT: Защо сега чувам толкова много за това?

CO: Преди „големи данни“ статистиците ще правят скъпи неща като анкетиране на хората, за да разберат бъдещето. Например да задавате на хората директни въпроси като: „За кого ще гласувате?“ Сега ние все повече разчитаме на „изчерпване на данни“, което наричам данните, които се събират за вас постоянно, за да направя заключение за нещата за вас.

Преди „големи данни“ компаниите трябваше да правят само диви предположения. Сега имаме по-добри от диви предположения. Изненадващото е, че повечето алгоритми за големи данни са дивно неточни и няма причина да мислим, че са прави. Но те са по-добри от дивите предположения. И затова големите данни са излетели, както има.

CT: Ако те са неточни, тогава какво отразяват?

CO: Недостатъчните набори от данни, с които ги захранваме. Алгоритмите не знаят нищо освен това, което им казваме. Така че, когато имаме неравномерни данни и ги захранваме към алгоритъма или предубедени данни, ще мислим, че това е реалността.

Ailsa Johnson / © Културна екскурзия

CT: Какъв пример в реалния свят е това?

СО: Пример може да бъде, че в Съединените щати чернокожите са пет пъти по-склонни да бъдат арестувани за тютюнопушене, отколкото бели хора. Това не е така, защото черните пушат пот по-често - и двете групи пушат гърне с една и съща скорост. Черните хора са много по-склонни да бъдат арестувани за това. Ако предадете това на алгоритъм, който правим, правилно ще заключим, че чернокожите са в много по-голяма вероятност в бъдеще да бъдат арестувани за тютюнопушене. И тогава това ще даде на черните хора по-високи оценки за риск за престъпност, което има ефект върху наказателното осъждане.

Друг пример е мислен експеримент. Ще използвам Fox News, защото наскоро Fox News има изригвания, свързани с вътрешна култура на сексизъм. Експериментът е „Какво би станало, ако Fox News се опита да използва собствените си данни, за да изгради алгоритъм за машинно обучение, за да наема хора в бъдеще?“

Кажете, че търсим хора, успели например в Fox News. Зависи как бихте определили успеха, но обикновено ще погледнете хората, които получават повишения, промоции или остават за дълго време. Чрез която и да е от тези мерки данните ще отразят, че жените не успяват в Fox News. Ако се използва като алгоритми за наемане, това ще разпространи този проблем. Той ще разгледа група от кандидати и ще каже: „Не искам да наемам жени, защото тук те не са успешни. Не са добри наематели. " И не просто трябва да бъде Fox News - всяка корпоративна култура има пристрастия. Когато захранвате данни от алгоритъм, отклонението на алгоритъма след това го разпространява. Тя продължава да засилва пристрастията, които вече съществуват в обществото.

КТ: Предупрежденията умишлени ли са?

CO: Не мисля, че учените за данни се опитват да правят сексистки или расистки алгоритми. Но алгоритмите за машинно обучение са изключително добри в набирането на относително нюансирани модели и след това разпространението им. Това не е нещо, което учените умишлено правят, но въпреки това е предубедено.

КТ: Каква роля играят неточните алгоритми в ежедневието ни?

CO: Използват се във всякакви решения за живота на хората - от встъпването в колеж до получаването на работа.

Има алгоритми, които решават как полицията ще полицейски квартали, както и алгоритми, които решават как съдиите ще осъждат обвиняемите. Има алгоритми, които решават колко ще плащате за застраховка или какъв ГПР [лихвен процент] получавате на кредитната си карта. Има алгоритми, които решават как се справяте в работата си, които се използват за определяне на повишаването на заплатите. Има алгоритми на всяка стъпка от пътя, от раждането до смъртта.

CT: И къде ни оставя това?

CO: Ние скочихме в ерата с големи данни и сме хвърлили алгоритми при всеки един проблем, който имаме, ако приемем, че тези алгоритми трябва да бъдат по-справедливи от хората - но всъщност те са също така несправедливи като хората. Трябва да се справим по-добре.

Щракнете тук, за да прочетете втората част от нашето интервю с д-р О'Нийл. Книгата й „Оръжията на разрушаването на математиката: Как големите данни увеличават неравенството и заплашва демокрацията“ е налична сега.