作者:字節跳動公共政策研究院袁祥王一
信息智能推薦算法是人工智能技術在信息傳播領域的應用,它極大地提高了信息的生產和傳播效率,帶來了傳播方式和傳播活動的深刻變革,同時也引發了監管部門和用戶對這一新技術運用中出現的內容質量和價值觀問題、算法黑箱和信息繭房風險等多方面的關切和疑慮。面對這些關切和疑慮,學界進行了持續研究分析,互聯網信息平臺不斷探索問題的解決和風險的防控,推動智能推薦技術的優化創新,以期把握算法的特點、價值和規律,促進人工智能時代信息傳播的健康發展、安全發展。
算法不是信息傳播中社會價值弱化的根源
媒體進入大眾化和市場化時代以來,內容的低俗、低質和娛樂化傾向就開始顯現,給主流價值的傳播帶來挑戰。進入信息智能推薦算法時代,這一趨勢還在延續,并有了新的表現形式。根本原因在于,大眾偏好的內容往往不等同于優質的內容,而用戶的需要、市場的要求是媒介技術發展的主要推動力,客觀上助長了內容生態的低質化。
從算法設計的初衷看,其本身并不會提倡標題黨、煽情和低俗化內容,但由于智能推薦算法要經由網上海量的數據來訓練和生成,而在全網已經存在大量低質化信息和大眾化審美品位沒有得到根本提升的情況下,加之設計算法的工程師沒有經過專業的新聞倫理訓練,主要關注內容和用戶興趣的匹配度等指標,缺乏社會價值意識,在算法發展的初期也沒有將對社會價值的導向要求和對低質信息的把關需要內化為算法的具體規則,在客觀上呈現出推薦內容的低質化傾向。如果說在門戶網站和社交網絡時代,不符合用戶偏好的信息還能經由編輯的專業推薦或關系鏈中其他人的轉發推薦而有一定的傳播空間,那么在算法時代,不同內容之間的“馬太效應”更加凸顯,符合偏好的內容可以經由算法的逐級放大有更廣泛的影響,而其他內容則很難有生存空間。
算法并不必然助長內容生態的低質化。這要從算法設計的主要特征分析,分為個體、群體、整體三個層次的特征:對個體用戶,算法一般通過對內容特征、人的特征、環境特征三個維度指標的分析,在特定人和特定內容之間做出力求精準的匹配。內容特征可能包括領域分類、主題詞、實體詞、來源、質量評分、相似文章等指標,人的特征包括興趣、年齡、性別、職業、使用行為、機型等指標,環境特征包括時間、地點、天氣和網絡類型等。在群體層面,算法通過尋找不同用戶在興趣分類、主題、實體詞和使用行為上的相似性,將一個用戶感興趣的內容推薦給另一個人,這已不是基于用戶自己的歷史行為,而是基于群體隱性關聯之上的協同推薦。就網民整體,算法則基于內容的熱度特征,包括全平臺的熱點文章或不同類別、主題和關鍵詞的熱點內容,在“冷啟動”階段對新用戶進行初步推薦。
要扭轉社交時代以來內容低質化的趨勢,需要智能信息分發平臺將社會責任意識主動地融入算法設計。算法的市場目標分為中短期目標和長期目標,中短期目標是幾個小時、一兩天之內用戶的興趣匹配,是為了提升點擊率和收藏、轉發、評論等行為,而長期目標是實現用戶的穩定留存和活躍使用。很多時候,短期目標對實現長期目標并沒有幫助,有時候反而起反作用。以標題黨現象為例,劣質創作者通過噱頭可以吸引用戶點擊,使點擊率虛高,用戶可能會留下負面評價,表面上提高了參與度,但卻以犧牲用戶體驗和影響留存為代價,類似含水的點擊率和負面的評論率,不符合信息平臺的長遠利益。
當前智能分發已成為新聞資訊客戶端、瀏覽器等應用的“標配”手段,從行業實踐看,居于頭部領先位置的App更重視用戶的長期留存,更傾向于主動避免內容低質化帶來的社會輿論和監管風險。字節跳動公司最早將智能推薦算法應用在信息分發領域,在發展早期也存在內容質量問題和算法偏向市場化的問題,近年通過設置更多元的算法目標,綜合分析用戶瀏覽時長、評論情感傾向來打擊標題黨、煽情化等劣質內容,通過技術模型過濾有害信息和黃賭毒等違法違規內容,并基于正能量信息的模型訓練來加強主流價值信息的推薦。例如,信息平臺通過對上百萬篇網信部門宣傳報道指令、黨報黨刊要聞等正能量信息的人工標注,作為機器學習的模型訓練集,模型經過不斷優化,對新時代建設等主流價值觀內容的識別率準確超過93%。算法對識別出的文章進行1.5-2倍的加權推薦,目前正能量模型識別范圍已涵蓋凡人善舉、行業榜樣、知識普惠、公益慈善等眾多領域,平臺內容日益多元優質,生態越來越有益健康。而一些“信息流”平臺則表現出打擦邊球的意愿和行動,以對低俗化內容的推薦來實現短期用戶量的“沖高”,美女、大尺度、追星、偶像成為內容關鍵詞,這些信息經推薦算法進一步放大了對用戶,特別是青少年用戶的影響。這已引發社會關切和監管層的關注,已督促改進。但效果尚不明顯,需要加大監管力度。
在智能分發時代,要解決內容的低俗化低質化和社會價值弱化問題,要從兩方面同時入手、同步加強。一要解決內容生產的低質化問題,壓實社交平臺、信息平臺和創作者的社會責任,提升全體用戶的道德素質和網絡素養。社交網絡極大賦能了用戶的創作權、表達權、傳播權,一個個用戶需求和內容產出匯聚起來,越發影響著網上信息的議程設置和導向,如果此時的內容生態不健康,那么“沒有一片雪花是無辜的”,而現實是大多數用戶基于原始的本能,傾向于好玩的、娛樂的、低俗的內容。這不同于傳統媒體時代,新聞機構有強大的社會影響力,但也負有高度的責任和使命。社交平臺、信息平臺的海量信息是推薦算法發揮作用的土壤,在個體賦權的同時,用戶也需要權責平衡,要以多種方式有效提升普通人的道德素質、媒介素養、算法知識、責任意識和法紀觀念,創作者要確保一開始就生產高質量的內容,平臺更主動發揮自我監管的責任,才能從源頭上建立優質的內容生態。
二要實現社會價值融入算法設計,發揮對內容生產和傳播的“獎優罰劣”把關作用,盡快邁向智能管網治網。算法幫助用戶以更智能、更高效的方式行使對內容的選擇權利,客觀上具有對內容創作的引導作用,商業媒體、自媒體等都會研究和分析不同平臺的算法特點,謀求更多的內容推薦和傳播。如果算法中融入了社會價值,就會促進內容生態向更健康的方向發展。如果說落實平臺責任、提升用戶素質是為了盡量減少網上的“淤泥”,而對算法的優化則是為了做到“出淤泥而不染”。之前是將價值堅守融入專業媒體人的工作,算法時代要將主流價值觀念、信息傳播倫理融入工程師的設計目標和流程,由于代碼被認為是網絡空間的“法律”,這樣做可以將制度的宏觀原則融入技術的微觀建構之中。作者:字節跳動公共政策研究院袁祥王一
信息智能推薦算法是人工智能技術在信息傳播領域的應用,它極大地提高了信息的生產和傳播效率,帶來了傳播方式和傳播活動的深刻變革,同時也引發了監管部門和用戶對這一新技術運用中出現的內容質量和價值觀問題、算法黑箱和信息繭房風險等多方面的關切和疑慮。面對這些關切和疑慮,學界進行了持續研究分析,互聯網信息平臺不斷探索問題的解決和風險的防控,推動智能推薦技術的優化創新,以期把握算法的特點、價值和規律,促進人工智能時代信息傳播的健康發展、安全發展。
算法不是信息傳播中社會價值弱化的根源
媒體進入大眾化和市場化時代以來,內容的低俗、低質和娛樂化傾向就開始顯現,給主流價值的傳播帶來挑戰。進入信息智能推薦算法時代,這一趨勢還在延續,并有了新的表現形式。根本原因在于,大眾偏好的內容往往不等同于優質的內容,而用戶的需要、市場的要求是媒介技術發展的主要推動力,客觀上助長了內容生態的低質化。
從算法設計的初衷看,其本身并不會提倡標題黨、煽情和低俗化內容,但由于智能推薦算法要經由網上海量的數據來訓練和生成,而在全網已經存在大量低質化信息和大眾化審美品位沒有得到根本提升的情況下,加之設計算法的工程師沒有經過專業的新聞倫理訓練,主要關注內容和用戶興趣的匹配度等指標,缺乏社會價值意識,在算法發展的初期也沒有將對社會價值的導向要求和對低質信息的把關需要內化為算法的具體規則,在客觀上呈現出推薦內容的低質化傾向。如果說在門戶網站和社交網絡時代,不符合用戶偏好的信息還能經由編輯的專業推薦或關系鏈中其他人的轉發推薦而有一定的傳播空間,那么在算法時代,不同內容之間的“馬太效應”更加凸顯,符合偏好的內容可以經由算法的逐級放大有更廣泛的影響,而其他內容則很難有生存空間。
算法并不必然助長內容生態的低質化。這要從算法設計的主要特征分析,分為個體、群體、整體三個層次的特征:對個體用戶,算法一般通過對內容特征、人的特征、環境特征三個維度指標的分析,在特定人和特定內容之間做出力求精準的匹配。內容特征可能包括領域分類、主題詞、實體詞、來源、質量評分、相似文章等指標,人的特征包括興趣、年齡、性別、職業、使用行為、機型等指標,環境特征包括時間、地點、天氣和網絡類型等。在群體層面,算法通過尋找不同用戶在興趣分類、主題、實體詞和使用行為上的相似性,將一個用戶感興趣的內容推薦給另一個人,這已不是基于用戶自己的歷史行為,而是基于群體隱性關聯之上的協同推薦。就網民整體,算法則基于內容的熱度特征,包括全平臺的熱點文章或不同類別、主題和關鍵詞的熱點內容,在“冷啟動”階段對新用戶進行初步推薦。
要扭轉社交時代以來內容低質化的趨勢,需要智能信息分發平臺將社會責任意識主動地融入算法設計。算法的市場目標分為中短期目標和長期目標,中短期目標是幾個小時、一兩天之內用戶的興趣匹配,是為了提升點擊率和收藏、轉發、評論等行為,而長期目標是實現用戶的穩定留存和活躍使用。很多時候,短期目標對實現長期目標并沒有幫助,有時候反而起反作用。以標題黨現象為例,劣質創作者通過噱頭可以吸引用戶點擊,使點擊率虛高,用戶可能會留下負面評價,表面上提高了參與度,但卻以犧牲用戶體驗和影響留存為代價,類似含水的點擊率和負面的評論率,不符合信息平臺的長遠利益。
當前智能分發已成為新聞資訊客戶端、瀏覽器等應用的“標配”手段,從行業實踐看,居于頭部領先位置的App更重視用戶的長期留存,更傾向于主動避免內容低質化帶來的社會輿論和監管風險。字節跳動公司最早將智能推薦算法應用在信息分發領域,在發展早期也存在內容質量問題和算法偏向市場化的問題,近年通過設置更多元的算法目標,綜合分析用戶瀏覽時長、評論情感傾向來打擊標題黨、煽情化等劣質內容,通過技術模型過濾有害信息和黃賭毒等違法違規內容,并基于正能量信息的模型訓練來加強主流價值信息的推薦。例如,信息平臺通過對上百萬篇網信部門宣傳報道指令、黨報黨刊要聞等正能量信息的人工標注,作為機器學習的模型訓練集,模型經過不斷優化,對新時代建設等主流價值觀內容的識別率準確超過93%。算法對識別出的文章進行1.5-2倍的加權推薦,目前正能量模型識別范圍已涵蓋凡人善舉、行業榜樣、知識普惠、公益慈善等眾多領域,平臺內容日益多元優質,生態越來越有益健康。而一些“信息流”平臺則表現出打擦邊球的意愿和行動,以對低俗化內容的推薦來實現短期用戶量的“沖高”,美女、大尺度、追星、偶像成為內容關鍵詞,這些信息經推薦算法進一步放大了對用戶,特別是青少年用戶的影響。這已引發社會關切和監管層的關注,已督促改進。但效果尚不明顯,需要加大監管力度。
在智能分發時代,要解決內容的低俗化低質化和社會價值弱化問題,要從兩方面同時入手、同步加強。一要解決內容生產的低質化問題,壓實社交平臺、信息平臺和創作者的社會責任,提升全體用戶的道德素質和網絡素養。社交網絡極大賦能了用戶的創作權、表達權、傳播權,一個個用戶需求和內容產出匯聚起來,越發影響著網上信息的議程設置和導向,如果此時的內容生態不健康,那么“沒有一片雪花是無辜的”,而現實是大多數用戶基于原始的本能,傾向于好玩的、娛樂的、低俗的內容。這不同于傳統媒體時代,新聞機構有強大的社會影響力,但也負有高度的責任和使命。社交平臺、信息平臺的海量信息是推薦算法發揮作用的土壤,在個體賦權的同時,用戶也需要權責平衡,要以多種方式有效提升普通人的道德素質、媒介素養、算法知識、責任意識和法紀觀念,創作者要確保一開始就生產高質量的內容,平臺更主動發揮自我監管的責任,才能從源頭上建立優質的內容生態。
二要實現社會價值融入算法設計,發揮對內容生產和傳播的“獎優罰劣”把關作用,盡快邁向智能管網治網。算法幫助用戶以更智能、更高效的方式行使對內容的選擇權利,客觀上具有對內容創作的引導作用,商業媒體、自媒體等都會研究和分析不同平臺的算法特點,謀求更多的內容推薦和傳播。如果算法中融入了社會價值,就會促進內容生態向更健康的方向發展。如果說落實平臺責任、提升用戶素質是為了盡量減少網上的“淤泥”,而對算法的優化則是為了做到“出淤泥而不染”。之前是將價值堅守融入專業媒體人的工作,算法時代要將主流價值觀念、信息傳播倫理融入工程師的設計目標和流程,由于代碼被認為是網絡空間的“法律”,這樣做可以將制度的宏觀原則融入技術的微觀建構之中。