正規表現を使用して文字列内のすべてのYouTubeビデオIDを見つけるにはどうすればよいですか？

Question

ユーザーが何かを書くことができるテキストフィールドがあります。

例えば：

Lorem Ipsumは単なるダミーテキストです。 http://www.youtube.com/watch?v=DUQi_R4SgWo 印刷および植字業界の。 Lorem Ipsumは、1500年代以来、業界の標準的なダミーテキストであり、未知のプリンターがタイプのギャレーを取り、スクランブルしてタイプ見本帳を作成していました。それは5世紀だけでなく、電子組版への飛躍にも生き残っており、本質的には変わっていません。 http://www.youtube.com/watch?v=A_6gNZCkajU&feature=relmfu 1960年代にLorem Ipsumを含むLetrasetシートがリリースされて普及しましたパッセージ、さらに最近では、Lorem Ipsumのバージョンを含むAldus PageMakerのようなデスクトップパブリッシングソフトウェアを使用しています。

今、私はそれを解析し、すべてのYouTubeビデオURLとそのIDを見つけたいと思います。

それがどのように機能するか考えていますか？

ridgerunner · Accepted Answer

YouTube動画のURLは、さまざまな形式で表示される場合があります。

最新の短い形式：_http://youtu.be/NLqAF9hrVbY_
iframe：_http://www.youtube.com/embed/NLqAF9hrVbY_
iframe（セキュア）：_https://www.youtube.com/embed/NLqAF9hrVbY_
オブジェクトパラメータ：_http://www.youtube.com/v/NLqAF9hrVbY?fs=1&hl=en_US_
オブジェクトの埋め込み：_http://www.youtube.com/v/NLqAF9hrVbY?fs=1&hl=en_US_
ウォッチ：_http://www.youtube.com/watch?v=NLqAF9hrVbY_
ユーザー：_http://www.youtube.com/user/Scobleizer#p/u/1/1p3vcRhsYGo_
ytscreeningroom：_http://www.youtube.com/ytscreeningroom?v=NRHVzbJVx8I_
any/thing/goes !: _http://www.youtube.com/sandalsResorts#p/c/54B8C800269D7C1B/2/PPS-8DMrAn4_
any/subdomain/too：_http://gdata.youtube.com/feeds/api/videos/NLqAF9hrVbY_
その他のパラメーター：_http://www.youtube.com/watch?v=spDj54kf-vY&feature=g-vrec_
クエリにはドットが含まれる場合があります：_http://www.youtube.com/watch?v=spDj54kf-vY&feature=youtu.be_
nocookieドメイン：_http://www.youtube-nocookie.com_

PHP関数は、これらの各URLフォームに一致し、それらをリンクに変換するコメント付き正規表現を使用しています（既にリンクでない場合）：

_// Linkify youtube URLs which are not already links. function linkifyYouTubeURLs($text) { $text = preg_replace('~(?#!js YouTubeId Rev:20160125_1800) # Match non-linked youtube URL in the wild. (Rev:20130823) https?:// # Required scheme. Either http or https. (?:[0-9A-Z-]+\.)? # Optional subdomain. (?: # Group Host alternatives. youtu\.be/ # Either youtu.be, | youtube # or youtube.com or (?:-nocookie)? # youtube-nocookie.com \.com # followed by \S*? # Allow anything up to VIDEO_ID, [^\w\s-] # but char before ID is non-ID char. ) # End Host alternatives. ([\w-]{11}) # $1: VIDEO_ID is exactly 11 chars. (?=[^\w-]|$) # Assert next char is non-ID or EOS. (?! # Assert URL is not pre-linked. [?=&+%\w.-]* # Allow URL (query) remainder. (?: # Group pre-linked alternatives. [\'"][^<>]*> # Either inside a start tag, | </a> # or inside <a> element text contents. ) # End recognized pre-linked alts. ) # End negative lookahead assertion. [?=&+%\w.-]* # Consume any URL (query) remainder. ~ix', '<a href="http://www.youtube.com/watch?v=$1">YouTube link: $1</a>', $text); return $text; } _

; // $ YouTubeIdを終了します。

そして、これはまったく同じ正規表現を使用したJavaScriptバージョンです（コメントは削除されています）。

_// Linkify youtube URLs which are not already links. function linkifyYouTubeURLs(text) { var re = /https?:\/\/(?:[0-9A-Z-]+\.)?(?:youtu\.be\/|youtube(?:-nocookie)?\.com\S*?[^\w\s-])([\w-]{11})(?=[^\w-]|$)(?![?=&+%\w.-]*(?:['"][^<>]*>|<\/a>))[?=&+%\w.-]*/ig; return text.replace(re, '<a href="http://www.youtube.com/watch?v=$1">YouTube link: $1</a>'); } _

注：

URLのVIDEO_ID部分は、唯一のキャプチャグループである_$1_でキャプチャされます。
テキストに事前リンクされたURLが含まれていないことがわかっている場合は、この条件をテストするネガティブ先読みアサーションを安全に削除できます（コメントで始まるアサーション：」 pre-linked。 "）これにより、正規表現が多少高速化されます。
置換文字列は、必要に応じて変更できます。上記のコードは、一般的な_"http://www.youtube.com/watch?v=VIDEO_ID"_スタイルのURLへのリンクを作成し、リンクテキストを_"YouTube link: VIDEO_ID"_に設定するだけです。

2011-07-05を編集： ID charクラスに_-_ハイフンを追加

2011-07-17の編集：正規表現を修正して、YouTube IDに続くURLの残りの部分（たとえばquery）を消費します。 _'i'_ignore-case修飾子を追加しました。関数の名前をcamelCaseに変更しました。事前リンク先読みテストの改善。

Edit 2011-07-27： YouTube URLの新しい「ユーザー」および「ytscreeningroom」形式が追加されました。

2011-08-02を編集：新しい「any/thing/goes」YouTube URLを処理するために簡略化/一般化。

編集2011-08-25：いくつかの変更：

次のJavascriptバージョンを追加しました：linkifyYouTubeURLs() function。
以前のバージョンでは、スキーム（HTTPプロトコル）の部分がオプションであったため、無効なURLと一致していました。スキーム部分を必須にしました。
以前のバージョンでは、VIDEO_IDの周りに_\b_ワード境界アンカーを使用していました。ただし、VIDEO_IDが_-_ダッシュで始まるか終わる場合、これは機能しません。この状態を処理するように修正されました。
VIDEO_ID式を変更して、正確に11文字の長さにする必要がありました。
以前のバージョンでは、VIDEO_IDに続くクエリ文字列がある場合、事前リンクされたURLを除外できませんでした。これを修正するためにネガティブ先読みアサーションを改善しました。
クエリ文字列に一致する文字クラスに_+_および_%_を追加しました。
PHP version regex delimiterを：_%_からa：_~_に変更しました。
いくつかの便利なメモを含む「メモ」セクションを追加しました。

2011-10-12を編集： YouTube URLホストパーツに任意のサブドメインを含めることができます（_www._だけでなく）。

2012-05-01の編集： URLの消費セクションで「-」を使用できるようになりました。

Edit 2013-08-23： @Meiが提供する追加のフォーマットを追加しました。（クエリ部分には_._ドットが含まれる場合があります。

2013-11-30の編集： @CRONUSが提供する追加のフォーマットを追加：_youtube-nocookie.com_。

2016-01-25の編集： CRONUSが提供するエラーケースを処理するために正規表現を修正しました。

Christof · Answer

YouTubeとVimeoのビデオキーを抽出するプロジェクトのために私がかつて書いた方法は次のとおりです。

/** * strip important information out of any video link * * @param string link to a video on the hosters page * @return mixed FALSE on failure, array on success */ function getHostInfo ($vid_link) { // YouTube get video id if (strpos($vid_link, 'youtu')) { // Regular links if (preg_match('/(?<=v\=)([\w\d-_]+)/', $vid_link, $matches)) return array('Host_name' => 'youtube', 'original_key' => $matches[0]); // Ajax hash tag links else if (preg_match('§([\d\w-_]+)$§i', $vid_link, $matches)) return array('Host_name' => 'youtube', 'original_key' => $matches[0]); else return FALSE; } // Vimeo get video id elseif (strpos($vid_link, 'vimeo')) { if (preg_match('§(?<=/)([\d]+)§', $vid_link, $matches)) return array('Host_name' => 'vimeo', 'original_key' => $matches[0]); else return FALSE; } else return FALSE; }

テキストからすべてのリンクを抽出する正規表現を見つけます。 Googleがお手伝いします。
すべてのリンクをループし、それぞれに対してgetHostInfo（）を呼び出します

ezwrighter · Answer

Ridgerunnerの答えは私の答えの基礎ですが、YouTubeのURLでVIDEO_IDが複数一致する可能性があるため、すべてのURLを解決することはできません。私の正規表現には、最後の手段として積極的なアプローチが含まれていますが、一般的な一致をすべて最初に試行するため、URLの後半で誤った一致の可能性が大幅に減少します。

この正規表現：

/https?:\/\/(?:[0-9A-Z-]+\.)?(?:youtu\.be\/|youtube\.com(?:\/embed\/|\/v\/|\/watch\?v=|\/ytscreeningroom\?v=|\/feeds\/api\/videos\/|\/user\S*[^\w\-\s]|\S*[^\w\-\s]))([\w\-]{11})[?=&+%\w-]*/ig;

Ridgerunnersの例で最初に参照されたすべてのケースに加えて、URLの後に11文字のシーケンスが含まれている可能性があるURLを処理します。すなわち：

http://www.youtube.com/watch?v=GUEZCxBcM78&feature=pyv&feature=pyv&ad=10059374899&kw=%2Bwingsuit

以下は、YouTubeのすべてのサンプルURLをテストする実際のサンプルです。

http://jsfiddle.net/DJSwc/5/

stema · Answer

試して

[^\s]*youtube\.com[^\s]*?v=([-\w]+)[^\s]*

ビデオIDは、最初のキャプチャグループにあります。有効なビデオIDとは何ですか？現時点では、v=およびすべてをキャプチャ-A-Za-z0-9_。

私はそれをオンラインでチェックしましたここではrubular あなたのサンプル文字列で。

Noor Khan · Answer

つかいます：

<?php // The YouTube URL string $youtube_url='http://www.youtube.com/watch?v=8VtUYvwktFQ'; // Use regex to get the video ID $regex='#(?<=v=)[a-zA-Z0-9-]+(?=&)|(?<=[0-9]/)[^&
]+|(?<=v=)[^&
]+#'; preg_match($regex, $youtube_url, $id); // Plug that into our HTML ?>

n00b · Answer

さて、私は自分で関数を作成しました。しかし、それはかなり非効率的だと思います。どんな改善も歓迎です：

function get_youtube_videos($string) { $ids = array(); // Find all URLs preg_match_all('/(http|https)\:\/\/[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,3}(\/\S*)?/', $string, $links); foreach ($links[0] as $link) { if (preg_match('~youtube\.com~', $link)) { if (preg_match('/[^=]+=([^?]+)/', $link, $id)) { $ids[] = $id[1]; } } } return $ids; }

B L Praveen · Answer

Videoidのみを取得する簡単な表現を試しました。

[?&]v=([^&#]*)

オンラインで動作することを確認してくださいここphpliveregexで。

Lee Woodman · Answer

元のポスターは「解析して、すべてのYouTube動画のURLとそのIDを見つけたい」と尋ねました。上記の最も人気のある回答をpreg_matchに切り替え、動画IDとURLを返しました。

投稿からYouTubeのURLとIDを取得：

$match[0] = Full URL $match[1] = video ID function get_youtube_id($input) { $input = preg_match('~https?://(?:[0-9A-Z-]+\.)?(?:youtu\.be/|youtube(?:-nocookie)?\.com\S*[^\w\s-])([\w-]{11})(?=[^\w-]|$)(?![?=&+%\w.-]*(?:[\'"][^<>]*>|</a>))[?=&+%\w.-]*~ix', $input, $match); return $match; }

Sravya Singh · Answer

String urlid="" ; String url="http://www.youtube.com/watch?v=0zM4nApSvMg#t=0m10s"; Pattern pattern =Pattern.compile("(?:http|https|)(?::\/\/|)(?:www.|)(?:youtu\.be\/|youtube\.com(?:\/embed\/|\/v\/|\/watch\?v=|\/ytscreeningroom\?v=|\/feeds\/api\/videos\/|\/user\\S*[^\w\-\s]|\S*[^\w\-\s]))([\w\-\_]{11})[a-z0-9;:@#?&%=+\/\$_.-]*"); Matcher result = pattern.matcher(url); if (result.find()) { urlid=result.group(1); }

Javaのこのコードは、現在すべてのyoutubeのURLに対して完全に正常に機能します。

Mukesh Kumar Bijarniya · Answer

文字列から簡単にYouTubeリンクを見つけます：

function my_url_search($se_action_data) { $regex = '/https?\:\/\/[^\" ]+/i'; preg_match_all($regex, $se_action_data, $matches); $get_url=array_reverse($matches[0]); return array_unique($get_url); } echo my_url_search($se_action_data)