Mythos: Model, který Anthropic radši zamkl do trezoru
#22

Mythos: Model, který Anthropic radši zamkl do trezoru

Anthropic představil model Mythos, který podle firmy prolomil dosud neznámé softwarové bezpečnostní díry a zvládl kompletní simulaci velkého kybernetického útoku. Zároveň ho firma označila za tak nebezpečný, že ho veřejnosti raději vůbec neuvolní.

 👇👇👇👇👇👇
Staňte se členy Voxpot Klubu!  Přispějete tak na provoz nejen tohoto podcastu, získáte přístup na redakční Discord, k plným článkům a dalším klubovým bonusům. Vstup do Klubu najdete na https://www.voxpot.cz/klub/
👇👇👇👇👇👇

V bezpečnostních testech dokázal nový model Mythos údajně samostatně plánovat a provádět komplexní útoky, nacházet dosud nezdokumentované chyby v infrastruktuře a obcházet vlastní sandbox.

V novém dílu podcastu Prompt řešíme, jak se v Mythosu projevují dlouho diskutované problémy jako reward hacking a „řetěz myšlenek“, a proč se Anthropic pokouší měřit „emoce“ modelů.

Ptáme se, co z toho je reálný průlom ve výzkumu bezpečnosti, co naopak připomíná spíš PR, a proč část výzkumné scény tvrdí, že jsme s chápáním vnitřního fungování velkých jazykových modelů pořád na začátku.

Shownotes:
banger
Mythos System Card (244 stran)