Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Скриптовые языки программирования > PHP
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 28.11.2011, 18:02   #1
askerpro
Новичок
Джуниор
 
Регистрация: 17.09.2009
Сообщений: 45
По умолчанию Удаление всех html тэгов из строки.

Доброго времени суток.
Мне дали задание написать скрипт, который будет переводить html документ из исходного на другой язык, мне нужно получить построчный массив из документа, который будет состоять только из русских слов, передать его функции переводчика, и вставить в документ возвращенный из функции, переведенный массив.
Код:
<?php
$d=file("http://forum.kbrnet.ru/index.php");
	foreach($d as $ortext){//перебираем документ построчно
		
		$massivstrok[]=strip_tags($ortext);// достаем строки и записываем в новый массив без тегов.
		
	}
	
?>
все бы хорошо, но стрип_тэгс не вырезает комментарии, и тэги типа <script>
результат работы скрипта можно посмотреть по ссылке
http://31.41.57.103/per/

что можете посоветовать?
почитал в гугле про simple_html_dom.php, но так и не разобрался как с ним работать.
п.с. в пхп я новичок
askerpro вне форума Ответить с цитированием
Старый 28.11.2011, 18:05   #2
askerpro
Новичок
Джуниор
 
Регистрация: 17.09.2009
Сообщений: 45
По умолчанию

я тут пересмотрел, оказывается strip_tags не вырезает строчные элементы, открывающие\закрывающие тэги которых находятся на разных строчках
ну например

Код:
<font bla bla> bla bla bla </font>
- вырезает
а
Код:
<font bla bla>
bla bla bla 
</font>
- не вырезает

что делать?
askerpro вне форума Ответить с цитированием
Старый 28.11.2011, 18:44   #3
Cronos20
Форумчанин
 
Регистрация: 08.07.2010
Сообщений: 679
По умолчанию

Ну вырезайте символы новой строки типа "\r" и '\n"
Но по-моему в таком виде ничего не получится ... ну вырежете теги ... переведете , а как обратно вставлять будете ???
Совет - разберитесь все же с simple_html_dom ... или свой парсер на регулярных выражениях напишите
Cronos20 вне форума Ответить с цитированием
Старый 28.11.2011, 20:15   #4
Andkorol
Старожил
 
Регистрация: 31.05.2010
Сообщений: 3,301
По умолчанию

Цитата:
Сообщение от askerpro Посмотреть сообщение
мне нужно получить построчный массив из документа, который будет состоять только из русских слов
Вам не с тегами воевать нужно - а просто регуляркой получать из строк русский текст.
preg_match() or preg_match_all() + шаблон для русских символов.

Ну а назад перевод влепить - это да, тут проблемка.
Теоретически можно фиксировать номер строки при захвате текста для перевода, а потом заменить русский текст на перевод, привязавшись к этому порядковому номеру строки в документе - но тут много нюансов может случиться...

Хотя - если задание не на точность, а больше на логическое мышление, то может прокатить.
Andkorol вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Удаление всех строк из RichEdit, начиная с определённой строки ondar Компоненты Delphi 5 07.06.2011 06:48
Удаление из строки всех не alpha символов skeletor PHP 3 12.07.2010 17:28
Удаление всех гиперссылок БуреВестник Microsoft Office Word 6 16.10.2009 10:05
Все атрибуты всех тэгов, css. Deight HTML и CSS 5 13.02.2009 19:29
Добавление html тэгов в поле TEXTAREA Reverent Общие вопросы по Java, Java SE, Kotlin 0 30.05.2007 15:06