【衝撃】最新AIさん、見えない言語で正答率0%を叩き出し「暗記マシン」だとバレるwwwww

概要: LLMのデータ効率が10倍に向上し「データ枯渇問題」突破の糸口が見えた一方、難解プログラミング言語テストではPython正答率90%超のモデルが全体でわずか3.8%に激減し、AIのコーディング能力が訓練データへの依存(≒暗記)に支えられている実態が判明。さらにOpenAIが月間1億DL超のPythonツール企業Astralを買収しCodexに統合、Anthropicの「Bun」買収に続きAIエージェント向け開発基盤の争奪戦が激化している。数学者テレンス・タオはAIの台頭を「都市への自動車普及」に例え、人間の知的営みとの共存設計を提言した。

元記事: 10x Data Efficiency - NanoGPT Slowrun - Q 元記事: EsoLang-Bench: Evaluating LLMs via Esoteric Programming Lang 元記事: Skip to content Ars Technica home 元記事: Terence Tao: “The current and projected impa…” - Mathstodon


スレの反応

1 名無しさん スペースとタブと改行だけの言語で正答率0%は草 人間でも無理だろそんなもん

2 名無しさん Python90%→難解言語3.8%って落差えぐすぎて逆に清々しいわ お前ら期末テスト前日に教科書丸暗記して臨むタイプだったろ

3 名無しさん >>2 つまりAIくんはStack Overflowをめちゃくちゃ高速で丸暗記した優等生ってことか 初見の問題出されたら固まるやつじゃん俺らと同じやん

4 名無しさん データ10倍効率化って要は「少ない教科書で同じ点取れます」ってことだろ 1年後に100倍いけるとか言ってるけどそれもう教科書なしで東大受かるレベルでは

5 名無しさん タオの「AIは自動車、人間の数学は歩行者向けの小道」って例え秀逸すぎる で、歩道に車突っ込ませようとしてるのが今のAI業界ってことね

6 名無しさん >>5 しかも「低品質な証明を大量生成させて駐車場にしろ」は天才の発想 凡人はその駐車場から出られないんだよなぁ

7 名無しさん OpenAI「Astral買収したけどオープンソースは続けるよ!」 ぼく「はい」 3年後「ログインが必要です」 ぼく「知ってた」

8 名無しさん >>7 Anthropicも Bun 買収してるし結局大手が開発ツール囲い込む流れ確定じゃん OSSの皮被った企業買収RTA始まってるだろこれ

9 名無しさん エージェント型にしたら正答率2倍になるの地味にやばくね? つまり「考えさせる」より「試行錯誤させる」方が強いってことだろ 人間の新人教育と同じで草

10 名無しさん まとめると ・AIは暗記の化け物(推論はそこそこ) ・データなくても計算力でなんとかなりそう ・ツール企業は片っ端から買収される ・天才数学者「道路整備しろ」

なんかAI業界、急に人間社会っぽくなってきたな


【悲報】iPhoneさん、サイト見ただけで全部抜かれる。FBI「国民の位置情報?買いますけど何か?」→結果wwwww

概要: 米政府系企業が開発したiPhoneハッキングツール「DarkSword」が流出・悪用され、iOS 18搭載端末(全ユーザーの約25%・数億台規模)がWebサイト閲覧だけで無差別に侵害される事態が発覚。同時期にFBI長官が令状なしでの国民位置情報データ購入の再開を議会で認め、さらにGoogleはAndroidの野良アプリ導入に24時間の冷却期間を新設すると発表。セキュリティとプライバシーを巡る問題が三方向から同時に噴出している。

元記事: Skip to content Ars Technica home 元記事: Skip to content Ars Technica home 元記事: Skip to content Ars Technica home

スレの反応

1 名無しさん iOS 26のUIがゴミすぎてアプデしなかった層が数億人いて、そいつら全員ハッカーの養分になってるの草も生えない

2 名無しさん 元々政府が作った最強スパイ兵器がロシア経由で転売されて中国人の仮想通貨パクるのに使われてるの、もう何が何だかわからんな

3 名無しさん ロシアのハッカーさん、ソースコード丁寧な英語コメント付きでネットに置き忘れるとかいう特大ヒューマンエラーかましてて笑うわ。「誰でもサーバーに置くだけで感染開始できます」って研究者もドン引きしてんじゃん

4 名無しさん FBI長官「国民のデータ?令状なしで買うぞ」→自分の通話記録が取られた時はブチギレ。お前それダブスタって言うんやで

5 名無しさん コットン議員の「位置情報はゴミ出しと同じ。捨てたんだからもう権利ない」理論、勢いだけはすごいけど冷静に考えたらとんでもないこと言ってるよな

6 名無しさん >>1 リキッドガラスとかいうヌルヌルアニメが不評でアプデ拒否勢が大量発生した結果、国家安全保障に穴が開くの完全にAppleの自業自得で最高にロック

7 名無しさん Googleの「野良アプリ入れたかったら24時間待ってね」、要は「お前が冷静になるまで待つわ」ってことだろ。パニック商法への対策がまさかの「一晩寝ろ」なの人間味あふれすぎ

8 名無しさん Android民ワイ、サイドロードの自由がどんどん消えていって泥の意味がなくなりつつある件。これもうiPhoneでよくね?

9 名無しさん >>8 そのiPhoneはサイト見ただけで全部抜かれるんですが

10 名無しさん 国家が数十億かけて開発→ブローカーが転売→犯罪者が購入→ソースごと流出→誰でも使える。最強の武器が半年で100均の包丁になる時代やばすぎ

11 名無しさん ファイルレスで痕跡残さないとかいう仕様、被害者が「やられたことすら気づけない」の本当に怖いわ。パスワードもiMessageも仮想通貨も全部静かに持ってかれるとか悪夢やん

12 名無しさん >>7 「息子さんが逮捕されました!今すぐこのアプリを!」→24時間後→「あ、息子普通に家おるわ」 これで防げるなら安いもんだけど、そもそもそれに引っかかる層がちゃんと24時間待てるのか問題

13 名無しさん 2023年FBI「位置情報の購入やめました」→2026年FBI「やっぱ再開するわ」この手のひら返し、政府の「やめました」が何の意味もないことを証明してて絶望感しかない

14 名無しさん まとめると Apple「UI変えたろ!」→ユーザー「クソだからアプデしない」→ハッカー「よろしくニキーwww」 Google「自由制限するわ」→ユーザー「泥の意味…」 FBI「お前らのデータ買うわ」→国民「」 全方位から殴られてて草


【衝撃】最新AIさん、よく分からん言語でコード書かせたら正答率3.8%だった件wwwww

概要: LLMのコーディング能力を難解プログラミング言語で測定する「EsoLang-Bench」が公開。Pythonでは約90%の精度を叩き出す最新モデルも、学習データの少ない難解言語では最高3.8%まで急落。空白だけで構成される言語「Whitespace」に至っては全モデル0%という結果に。一方、Factor言語のVMをC++からZigに移植して20%高速化達成(ただしバイナリは77%肥大化)、Irohチームは独自QUIC実装「noq」を発表、システム監視はSLI/SLOベースのバーンレート方式への移行が提唱されるなど、開発・運用の現場が多方面で動いている。

元記事: Getting Ziggy With It – Re: Factor 元記事: noq, noq, who’s there? - Iroh 元記事: Service Level Indicators # 元記事: EsoLang-Bench: Evaluating LLMs via Esoteric Programming Lang 元記事: Things That Turbo Pascal is Smaller Than

スレの反応

1 名無しさん AI「Pythonなら余裕っすよ」→Whitespace「よろしく」→AI「……………」→結果0%wwwww そりゃ見えない文字だけの言語なんて訓練データに入れるわけないもんな

2 名無しさん Factor VMをZigで書き直して速度20%アップはいいけどバイナリ77%デカくなってて草 ダイエットしたら筋肉ついたけど体重増えましたみたいな話やん

3 名無しさん Turbo Pascal 3のコンパイラ+IDE全部で39KBってマジかよ VimのクイックリファレンスPDFの方がデカいとか現代のソフトウェアどうなってんだ iPhoneの画像1枚にすら負けるフルIDEとかもう意味わからん

4 名無しさん 「障害の振り返りで新しいアラート追加するのは罠」ってやつ、うちのチームに100回読ませたい 毎回ポストモーテムで「次はこの指標も監視しよう!」って言ってアラート地獄になるの何回目だよ

5 名無しさん >>4 「この障害中に鳴った無駄なアラートで消せるのどれ?」って質問、ガチで誰もしないよな アラート追加はできても削除を提案する勇気ある奴おらん

6 名無しさん QUICからハードフォークして独自実装とかIrohチーム攻めすぎだろ マルチパスとNATトラバーサルをネイティブ対応は確かに今の時代必要だけど、メンテ地獄にならんのかそれ

7 名無しさん LLMさん、実行環境つけてエージェント化したら精度2倍って要するに「書いたコード動かしてエラー見て直す」ってことだよな それ普通の人間のプログラマーと同じことしてるだけでは

8 名無しさん >>7 つまりAIも結局Stack Overflow的な試行錯誤なしでは無理ってことが科学的に証明されたわけだ

9 名無しさん 「CPU使用率80%超えました!」ってアラートに対して「重要じゃないコンテナを除外する」作業が「想像しうる限り最もセクシーじゃないエンジニアリング作業」って表現、的確すぎて泣ける でも現場の9割はそれやってる

10 名無しさん >>1 結局AIが賢いんじゃなくてGitHubに転がってるコードを暗記してるだけって話、薄々みんな気づいてたけどデータで殴られると効くわ

11 名無しさん C++→Zigの移行、Rust→独自QUIC、しきい値アラート→バーンレート 全部「今まで当たり前だったもの」がひっくり返されてる時代なんだな ワイの職場のJava8はいつひっくり返されますか?

12 名無しさん >>11 お前のJava8は考古学的価値が出始めてるからそのまま保存しとけ


【悲報】巨大テック企業さん、世界中で喧嘩売りまくった結果wwwww

概要: Broadcom社がVMware買収後にパートナー企業を4000社超→約20社に削減し価格を最大10倍に爆上げ、EUに独禁法で訴えられる。英国では匿名掲示板4chanが年齢確認義務違反で約1億円の罰金を食らうも支払い拒否、弁護士がAI生成ハムスター画像を送りつけて煽り返す事態に。一方GoogleはPlay外アプリのインストールに24時間の強制待機を導入、詐欺対策を名目にサイドロードを実質封鎖へ。

元記事: Skip to content Ars Technica home 元記事: Skip to content Watch Live British Broadcasting Corporation 元記事: Skip to content Ars Technica home 元記事: Sen. Tom Cotton (R-Ark.), the Senate Intelligence Committee

スレの反応

1 名無しさん Broadcomさん、買収した途端にパートナー4000社を20社まで減らして値段10倍にするの、もはや人質ビジネスで草

2 名無しさん 4chanの弁護士が英国当局に「AI生成ハムスター画像」送りつけたの、クライアントに染まりすぎだろwwwww しかも初犯じゃないってマジかよ

3 名無しさん Google「サイドロードは危険だから24時間待て」←セキュリティの話してるフリして囲い込み強化してるだけ定期。お前んとこのPlayストアにもマルウェアあるやんけ

4 名無しさん >>3 「24時間冷却期間があれば家族が本当に逮捕されてないって気づくはず」って、詐欺対策としては正しいんだけど解決策が力技すぎて笑う

5 名無しさん 英国「年齢確認しろ」→Pornhub「じゃあ英国ブロックするわ」→トラフィック77%減。4chanも同じ道辿りそうだけど、そもそも4chanに罰金払う金あんのか?

6 名無しさん FBIが令状なしで国民の位置情報買ってる件、コットン議員が「ゴミ箱漁るのと同じ」って擁護してるの凄いな。お前のゴミ箱にGPS入ってんのかよ

7 名無しさん 結局まとめると ・Broadcom「買収したから値上げするわ」→EU「独禁法」 ・4chan「うちは米国企業だが?」→英国「知らんがな罰金」 ・Google「安全のためです」→開発者「囲い込みやめろ」 全部「俺のルールに従え」vs「いやお前が従え」で草

8 名無しさん バンス副大統領「外国が米国企業を規制するのにウンザリ」って言ってるらしいけど、じゃあ米国企業が外国で好き放題やっていいのかって話よな。これもう外交問題だろ

9 名無しさん VMwareの最低3500コア要件ってさ、中小企業は完全に切り捨てってことだよな。「お前らは客じゃない」を公式に言い渡すスタイル、ある意味清々しいわ

10 名無しさん 4chanの弁護士「合衆国憲法修正第1条で保護されてるから英国法は関係ない」って、それが通るなら世界中どこでも米国法だけで生きていけることになるんだがwwwww


【朗報】Amazonの春セールでガジェット軒並み最安値更新、Xboxコントローラーが34%オフな件wwwww

概要: Amazon「Big Spring Sale」を前に各社ガジェットが今年最安値を更新中。Xboxワイヤレスコントローラーが通常64.99ドル→43.49ドル(34%オフ)、SonyのWF-1000XM6が発売以来初のセールで330ドル→約298ドルと初めて300ドルの壁を突破。Walmart・Targetなども追従し価格競争が激化している。

元記事: Thankfully, the Xbox Wireless Controller is discounted in a 元記事: Posts from this author will be added to your daily email dig 元記事: See All by Cameron Faulkner

スレの反応

1 名無しさん Xboxのコントローラーが安いのはわかったけど白と黒の差が0.49ドルって何だよ 担当者サイコロでも振ったのか

2 名無しさん Switch2のProコン高すぎ問題をXbox箱コンで解決するの草 もう任天堂のコントローラーじゃなくて良いじゃん

3 名無しさん SonyのXM6、ノイキャンで外の音消した上でカフェのBGM流す機能あるらしいな わざわざノイズ消してノイズ作ってて意味わからんのだがwwww

4 名無しさん >>3 静かすぎると逆に集中できないやつ向けだろ わかるけど技術の無駄遣い感はすごい

5 名無しさん エルメスの充電ケース75万円で電源アダプター別売りは流石に煽りすぎだろ Appleが良心的に見えるレベル

6 名無しさん スマホ用コントローラーMCON、MagSafe非対応機には粘着リング貼れって最先端なのかアナログなのかはっきりしろwwwww

7 名無しさん >>6 缶切りは内蔵されてないらしいぞ 残念だったな

8 名無しさん 結局Amazon春セール本番が来たらもっと下がるんだろ?今買うやつ情弱じゃね

9 名無しさん >>8 「もっと安くなるはず」って待ち続けて結局定価で買うやつ毎回おるよな

10 名無しさん XM6が300ドル切ったらBoseとAirPods Proも値下げせざるを得んだろうな 消費者としては最高の展開

11 名無しさん 8BitDoのアダプター20ドルでXbox箱コンがSwitchで使えるとか 純正Proコン買った奴が一番の被害者で草

12 名無しさん つまりこのセールの教訓は「欲しいものは春まで待て」ってことでおk?


【衝撃】最新テクノロジーさん、ガチ検証したら化けの皮が剥がれまくる件wwwww

概要: 双子の冒険家が100年前のウール装備と最新GORE-TEXでエベレスト登頂を比較した結果、体温差はわずか1.8℃だった。また難解プログラミング言語でLLMをテストする「EsoLang-Bench」では、Pythonで正答率90%のAIが最高3.8%に激減、空白だけの言語Whitespaceでは全モデル0%を記録。一方、80Gbpsスイッチの基板にオシロスコープを直接はんだ付けして電圧波形からUDPパケットを手動デコードする狂気のエンジニアや、4億ドル調達して宇宙ドッグファイト用衛星を開発するスタートアップも話題に。

元記事: One figure is a vision of modern mountaineering: clad in str 元記事: EsoLang-Bench: Evaluating LLMs via Esoteric Programming Lang 元記事: From Oscilloscope to Wireshark - A UDP Story 元記事: In that film, an assassin sets out to murder the French pres

スレの反応

1 名無しさん 100年分の素材革命の成果が1.8℃て。アウトドアメーカーのマーケティング部門全員顔面蒼白やろこれ

2 名無しさん AI「Pythonなら任せろ」→Whitespace「よろしくニキーwww」→AI「……」→正答率0% これもう暗記マンが応用問題で死ぬのと同じ構図やん

3 名無しさん 基板にはんだ付けして電圧の波形見ながら「あっこれカンマだわ」って手動デコードしてるエンジニア、もはや人間Wiresharkだろ。バグ追うのに物理攻撃するのやめろ

4 名無しさん >>3 ソフトウェアで見れないからハードに降りてきたんだぞ。レイヤー7から始めてレイヤー1まで堕ちていった男の末路や

5 名無しさん 宇宙でのドッグファイトが実際は数ヶ月かけてじわじわ追い詰める「ナマケモノの戦い」になるの草。スターウォーズ詐欺すぎる

6 名無しさん 双子でDNA同じだからA/Bテストとして完璧なの頭いいな。しかも飲み込みセンサーとか赤ちゃん用体温計ハックして体に貼るとか、100年前の服着ながらやることは最先端で笑う

7 名無しさん つまりAIくんは「問題の解き方を理解してる」んじゃなくて「答えを大量に見たことがある」だけってことか。ワイの大学時代と同じやないか

8 名無しさん >>1 逆に考えろ。100年前のおっさんたちがウールとツイードだけでエベレスト挑んでたのがヤバすぎるんだよ。人間スペックの方がオーバーテクノロジー

9 名無しさん 冷蔵庫サイズの戦闘衛星に4億ドル突っ込んでるの、もう完全にガンダムの世界が始まってるやん。ただし戦闘速度はナマケモノ

10 名無しさん 全部に共通してるのは「ブラックボックスを信じるな、自分の目で確かめろ」ってことだよな。ギアもAIもネットワークも、中身覗いたら思ってたのと全然違ったっていう

11 名無しさん >>7 過去問丸暗記で受験突破したタイプのAIが、初見の問題で爆死するの人間味あって好き

12 名無しさん 191MBの電圧波形データから手作業で0と1拾っていくの、修行僧の写経より気が狂ってる